4か月にわたる再設計を経て、GPT Image2の13名からなるコアチームが明らかに
最近、GPT Image2はその 驚くほどリアルな画像生成能力で、ソーシャルメディアを席巻しています。プロジェクトの人気が急上昇するにつれ、その背後にいた小規模で目立たないチームが脚光を浴びることになりました。 情報によると、中核となるチームはわずか13名で構成されており、彼らはわずか4ヶ月という短期間で基盤となるアーキテクチャを完全に書き換えることに成功しました。研究リーダーの陳博元氏は具体的な技術的詳細については明らかにしていませんが、この新しいモデルを「視覚領域におけるGPT」と表現しており、汎用能力における大きな飛躍を示唆しています。
チームの中心人物である陳博元氏の 経歴は特筆すべきものだ。博士課程在籍中、「ディフュージョン・フォーシング(Diffusion Forcing)」といった革新的な手法を開拓し、後にGoogleのGemini 2.0で採用されたインストラクション・チューニング技術の開発にも貢献した。興味深いことに、彼が初めて高校の科学キャンプに参加した際、Pythonの知識すらなかったという。 OpenAIに移籍後、彼はGPT画像モデルの全トレーニングを主導しただけでなく、Sora動画生成チームの中心メンバーとしても活躍した。あるデモンストレーションでは、中国語、韓国語、ベンガル語で完璧にレンダリングされたテキストを含むポスターを生成し、モデルの高度な言語理解能力を強調した。

テキストのレンダリングにとどまらず、GPT Image2は 世界知識の理解や複雑な指示の追従において新たな高みに到達した。中国科学技術大学のJianfeng Wang博士が率いるこのモジュールは、AI画像生成における長年の課題——例えば旧モデルが常に10時10分の時計を描いてしまうといった問題——に取り組んでいる。新モデルは、指定された時刻や複雑な空間レイアウトを正確に解釈する。 王博士は、このモデルがユーザーの創造的なビジョンと最終的に生成される結果との間のギャップを効果的に埋めていると指摘している。
生産性の面では、浙江大学朱源学院のYuguang Yang氏が、長文の研究論文を瞬時に高精度なPowerPointプレゼンテーションやインフォグラフィックに変換する本ツールの能力を披露しました。この機能は、マルチモーダル理解、Mixture of Experts(MoE)アーキテクチャ、および長文コンテキストガイダンス技術の深い統合によって実現されています。
初期のDALL-Eから今日のGPT Image2 まで
関連記事
MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める
中国工業情報化省は、「人工知能セキュリティガバナンスモデルコンテキストプロトコルのアプリケーションセキュリティ要求」を含む121件の産業標準化プロジェクトについて、一般からの意見を求める通知を正式に発表しました。この公告は、中国がAIの基盤となる標準や安全監督枠組みを確立する取り組みにおいて重要なマイルストーンとなります。一般からの意見募集期間中は、モデルコンテキストプロトコルのアプリケーションセキュリティに焦点を当て、標準化された技術仕様を通じて、マルチモーダルインタラクション、長文処理、クロ
オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加
公衆の怒り:OpenAIの軍事提携が「アンインストールブーム」を引き起こす最近、AI分野のリーダーであるOpenAIは、米国国防総省との深い協力関係を発表し、自社のAIモデルを極秘の軍事ネットワークに統合するとした。このニュースは米国内で広範なユーザーからの反発を招き、「ChatGPTボイコット」運動が盛り上がっている。市場分析会社Sensor Towerによると、2026年2月28日にOpenAIが正式にこの協力関係を発表した当日、米国市場におけるChatGPTモバイルアプリのアンインスト
OpenAIが「Sites」機能をリリース、テキストベースのウェブサイトにより「ノーコード」時代の幕を閉じる
OpenAIは、ソフトウェアエンジニアリング向けAI「Codex」の新機能「Sites」を発表しました。現在プレビュー版として提供されており、有料のBusinessおよびEnterpriseプランの加入者のみが利用可能です。この機能は、Webおよびアプリケーション開発における従来の障壁を取り除くことを目的としています。Sitesの本質は、抽象的なアイデアを実際に使えるツールへと変換するプラットフォ
関連特集おすすめ
コメント (0)
0/500
最近、
チームの中心人物である

テキストのレンダリングにとどまらず、
生産性の面では、浙江大学朱源学院のYuguang Yang氏が、長文の研究論文を瞬時に高精度なPowerPointプレゼンテーションやインフォグラフィックに変換する本ツールの能力を披露しました。この機能は、マルチモーダル理解、Mixture of Experts(MoE)アーキテクチャ、および長文コンテキストガイダンス技術の深い統合によって実現されています。
初期のDALL-Eから今日の
MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める
中国工業情報化省は、「人工知能セキュリティガバナンスモデルコンテキストプロトコルのアプリケーションセキュリティ要求」を含む121件の産業標準化プロジェクトについて、一般からの意見を求める通知を正式に発表しました。この公告は、中国がAIの基盤となる標準や安全監督枠組みを確立する取り組みにおいて重要なマイルストーンとなります。一般からの意見募集期間中は、モデルコンテキストプロトコルのアプリケーションセキュリティに焦点を当て、標準化された技術仕様を通じて、マルチモーダルインタラクション、長文処理、クロ
オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加
公衆の怒り:OpenAIの軍事提携が「アンインストールブーム」を引き起こす最近、AI分野のリーダーであるOpenAIは、米国国防総省との深い協力関係を発表し、自社のAIモデルを極秘の軍事ネットワークに統合するとした。このニュースは米国内で広範なユーザーからの反発を招き、「ChatGPTボイコット」運動が盛り上がっている。市場分析会社Sensor Towerによると、2026年2月28日にOpenAIが正式にこの協力関係を発表した当日、米国市場におけるChatGPTモバイルアプリのアンインスト
OpenAIが「Sites」機能をリリース、テキストベースのウェブサイトにより「ノーコード」時代の幕を閉じる
OpenAIは、ソフトウェアエンジニアリング向けAI「Codex」の新機能「Sites」を発表しました。現在プレビュー版として提供されており、有料のBusinessおよびEnterpriseプランの加入者のみが利用可能です。この機能は、Webおよびアプリケーション開発における従来の障壁を取り除くことを目的としています。Sitesの本質は、抽象的なアイデアを実際に使えるツールへと変換するプラットフォ





家






