ChatGPTのImages 2.0モデルはテキスト生成に優れている
ほんの数年前までは、人間が作成した画像とAIが生成した画像を見分けるのは比較的簡単でした。当時、画像生成モデルにメキシコ料理店のメニューを作成させると、「エンチュイタ」や「チュリロス」、「バート」、「マルガータ」といった、奇妙な架空の料理が頻繁に生成されていました。
今日、最新のChatGPT Images 2.0モデルにメキシコ料理のメニューを作成するよう依頼すると、実際のレストランですぐに使えるようなものが生成され、客が不自然さを感じることはまずないだろう。(とはいえ、13.50ドルのセビチェには、魚の品質について疑問を抱く人もいるかもしれないが)。

画像提供:ChatGPT Images 2.0
比較のために、2年前にDALL-E 3から受け取った結果を以下に示します。(当時、ChatGPTには画像生成機能がありませんでした):

画像提供:Microsoft Designer (DALL-E 3)
これまで、AI画像生成ツールは文字の描画に大きな課題を抱えていました。これは主に、ランダムなノイズから画像を再構築する拡散モデルに依存していたためです。
「拡散モデルは……与えられた入力を再構築しているのです」と、Lesan AIの創業者兼CEOであるAsmelash Teka Hadgu氏は2024年にTechCrunchに説明しました。「画像上のテキストはごくわずかな要素に過ぎないと見なせるため、画像生成モデルはより多くのピクセルを占める視覚パターンの学習を優先するのです。」
それ以来、研究者たちは自己回帰モデルなど、画像生成に対する他のアプローチを調査してきた。これらのモデルは、画像がどのように見えるべきかを段階的に予測し、大規模言語モデル(LLM)とより類似した働きをする。
残念ながら、OpenAIは今週の記者会見において、ChatGPT Images 2.0を支える具体的なモデルアーキテクチャに関する質問への回答を控えた。
しかし同社は、新モデルが「思考能力」を備えていることを明らかにした。これにより、ウェブ検索、単一のプロンプトからの複数画像生成、自身の出力結果の検証が可能となる。これらの機能により、Images 2.0は様々なサイズのマーケティング資料や、複数コマの漫画を生成できるようになった。
またOpenAIは、Images 2.0が日本語、韓国語、ヒンディー語、ベンガル語を含む非ラテン文字のレンダリングをより的確に処理できると述べています。モデルの知識は2025年12月時点のものであり、ごく最近の出来事に関連する画像を生成する際の精度に影響を与える可能性があります。
「Images 2.0は、画像生成において前例のないレベルの詳細さと正確さを実現します。より複雑なシーンを構想できるだけでなく、そのビジョンを効果的に具現化することも可能です。指示を正確に遵守し、要求された詳細を維持するとともに、小さなテキスト、アイコン、UIコンポーネント、複雑な構図、微妙なスタイルのニュアンスなど、他の画像モデルにとってしばしば課題となる細かな要素を、最大2Kの解像度でレンダリングします」と、OpenAIはプレスリリースで述べています。
こうした高度な機能により、画像生成はChatGPTにテキストで質問するほど瞬時ではありません。しかし、複数コマの漫画のような複雑なものを生成する場合でも、所要時間は数分程度です。
火曜日から、すべてのChatGPTおよびCodexユーザーがImages 2.0を利用できるようになり、有料サブスクライバーはより高度な出力を生成できるようになります。同社はまた、gpt-image-2 APIをリリースする予定で、価格は希望する出力品質と解像度に基づいて設定されます。
関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
コメント (0)
0/500
ほんの数年前までは、人間が作成した画像とAIが生成した画像を見分けるのは比較的簡単でした。当時、画像生成モデルにメキシコ料理店のメニューを作成させると、「エンチュイタ」や「チュリロス」、「バート」、「マルガータ」といった、奇妙な架空の料理が頻繁に生成されていました。
今日、最新のChatGPT Images 2.0モデルにメキシコ料理のメニューを作成するよう依頼すると、実際のレストランですぐに使えるようなものが生成され、客が不自然さを感じることはまずないだろう。(とはいえ、13.50ドルのセビチェには、魚の品質について疑問を抱く人もいるかもしれないが)。

画像提供:ChatGPT Images 2.0
比較のために、2年前にDALL-E 3から受け取った結果を以下に示します。(当時、ChatGPTには画像生成機能がありませんでした):

画像提供:Microsoft Designer (DALL-E 3)
これまで、AI画像生成ツールは文字の描画に大きな課題を抱えていました。これは主に、ランダムなノイズから画像を再構築する拡散モデルに依存していたためです。
「拡散モデルは……与えられた入力を再構築しているのです」と、Lesan AIの創業者兼CEOであるAsmelash Teka Hadgu氏は2024年にTechCrunchに説明しました。「画像上のテキストはごくわずかな要素に過ぎないと見なせるため、画像生成モデルはより多くのピクセルを占める視覚パターンの学習を優先するのです。」
それ以来、研究者たちは自己回帰モデルなど、画像生成に対する他のアプローチを調査してきた。これらのモデルは、画像がどのように見えるべきかを段階的に予測し、大規模言語モデル(LLM)とより類似した働きをする。
残念ながら、OpenAIは今週の記者会見において、ChatGPT Images 2.0を支える具体的なモデルアーキテクチャに関する質問への回答を控えた。
しかし同社は、新モデルが「思考能力」を備えていることを明らかにした。これにより、ウェブ検索、単一のプロンプトからの複数画像生成、自身の出力結果の検証が可能となる。これらの機能により、Images 2.0は様々なサイズのマーケティング資料や、複数コマの漫画を生成できるようになった。
またOpenAIは、Images 2.0が日本語、韓国語、ヒンディー語、ベンガル語を含む非ラテン文字のレンダリングをより的確に処理できると述べています。モデルの知識は2025年12月時点のものであり、ごく最近の出来事に関連する画像を生成する際の精度に影響を与える可能性があります。
「Images 2.0は、画像生成において前例のないレベルの詳細さと正確さを実現します。より複雑なシーンを構想できるだけでなく、そのビジョンを効果的に具現化することも可能です。指示を正確に遵守し、要求された詳細を維持するとともに、小さなテキスト、アイコン、UIコンポーネント、複雑な構図、微妙なスタイルのニュアンスなど、他の画像モデルにとってしばしば課題となる細かな要素を、最大2Kの解像度でレンダリングします」と、OpenAIはプレスリリースで述べています。
こうした高度な機能により、画像生成はChatGPTにテキストで質問するほど瞬時ではありません。しかし、複数コマの漫画のような複雑なものを生成する場合でも、所要時間は数分程度です。
火曜日から、すべてのChatGPTおよびCodexユーザーがImages 2.0を利用できるようになり、有料サブスクライバーはより高度な出力を生成できるようになります。同社はまた、gpt-image-2 APIをリリースする予定で、価格は希望する出力品質と解像度に基づいて設定されます。
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ





家






