OpenAI、GPT-5ローンチの課題に直面 展開ハードルを模索

更新:2025年8月8日金曜日 午後5時21分(ET):本記事公開後間もなく、OpenAIの共同創業者兼CEOサム・アルトマンは、特定のユーザーに対してGPT-4oおよびその他の旧モデルへのアクセスを復旧することを確認し、GPT-5のローンチが「我々が期待していたよりも困難なものとなった」と認識した。
控えめに言っても、大きく期待されていたOpenAIの新モデルGPT-5のローンチは、不安定なスタートを切った。
昨日の生配信による発表会(4つの異なるモデルと、そのうち3つで利用可能な「思考」モードを紹介した)でのグラフの誤りや音声デモの不具合はさておき、リリース以降の複数のユーザーレポートは、比較的単純な問題にGPT-5が苦戦している様子を示している。これらの問題は、以前のOpenAIモデルや、競合するAI研究所のライバルシステムでは正しく解決できていた。
例えば、データサイエンンティストのコリン・フレイザーは、GPT-5が数学の証明——具体的には、8.888の循環小数が9に等しいか否か(等しくない)——を誤って処理したスクリーンショットを共有した。
Wow, I was just playing around before but it actually is stupid pic.twitter.com/ao51nOH0Ui
— Colin Fraser (@colin_fraser) August 8, 2025
また、単純な数式である「5.9 = x + 5.11」——多くの小学生が解ける問題——でも失敗している。
This is concerning. https://t.co/PUbeCSgtRV
— Benjamin De Kraker (@BenjaminDEKR) August 8, 2025
OpenAI自身の欠陥がある発表会用チャートを評価させるためにGPT-5を使用しても、有用または正確な回答は得られなかった。
Q. Prove using an LLM-as-a-judge still doesn't work
A. pic.twitter.com/KnCK5Xs9ja
— Kangwook Lee (@Kangwook_Lee) August 7, 2025
さらに、このより難しい文章題(確かに、私でさえ最初は難しく感じた——ただしイーロン・マスクのGrok 4 AIは正答した。ヒント:敷石は分割できないため、80枚すべてをそのまま使用しなければならない)でもつまずいた。
Careful not to cut yourself on the jagged frontier pic.twitter.com/buJGgJ6baI
— Greg Burnham (@GregHBurnham) August 8, 2025
私のテストでは、旧モデルのGPT-4oは、これらの数学的問題の少なくとも1つをより確実に処理した。残念ながら、OpenAIはこれらの旧モデル——以前のデフォルトモデルであったGPT-4oや高度推論モデルo3を含む——をChatGPTユーザー向けに段階的に廃止している。ただし、近い将来においては開発者向けAPI経由では引き続きアクセス可能となる。
コーーディング性能はベンチマーク結果に及ばず
OpenAIの内部ベンチマークや特定の第三者テストではGPT-5がコーーディングにおいて最高性能のモデルであると示されているにもかかわらず、実際の使用感では、Anthropicが最近アップグレードしたClaude Opus 4.1の方が「ワンショット」タスク——ユーザーが意図したアプリケーションやソフトウェア構築を要求通りに提供する——をより効果的に処理することが多い。開発者ジャスティン・サンがXに投稿した以下の例を参照のこと:
Opus 4.1's one-shot attempt at "create a 3d capybara petting zoo" – 8 minutes total
This was honestly pretty insane, not only are the capybaras way cuter and moving, there are individual pet affinity levels, a day/night switcher, feeding, and even a screenshot feature pic.twitter.com/FiKTO3FKK4
— justin (@justinsunyt) August 7, 2025
さらに、セキュリティ企業SPLXの報告書によれば、OpenAIの内部安全対策は、ビジネス整合性や、プロンプトインジェクションおよび難読化されたロジック攻撃に対する脆弱性などの分野で重大なギャップがあった。
事例的ではあるが、AIのパワーーユーザーからの初期フィードバックは、全体的に生ぬるい評価を示唆している。
AIインインフルエンサーで元Google社員のビラワル・シシドゥは、Xでフォロワーに「バイブスチェック」を求める投票を実施した。これまでに172票が投じられ、優勢な回答は「まあまあ」であった。
Alright, GPT-5 vibe check
— Bilawal Sidhu (@bilawalsidhu) August 7, 2025
匿名のAI Leaks and Newsアカウントが指摘したように、「XとReddit AMA双方におけるGPT-5に対する圧倒的コンセンサスは、圧倒的に否定的である。」
The overwhelming consensus on GPT-5 from both X and the Reddit AMA are overwhelmingly negative
Most users are disgruntled about the broken model picker and non-pro users not having access to legacy models
What are your initial thoughts on GPT-5?
— AI Leaks and News (@AILeaksAndNews) August 8, 2025
AIPRMの主任エンジニアであり、Xで有名なAIコメンテーターであるティボル・ブラホは、ChatGPT-5のローンチに関する問題点を徹底的にまとめた。彼は、看板機能の1つ——クエリの複雑さに基づいて思考モードまたは非思考モードを自動選択する「ルーター」——が主要な不満点となっていると指摘した。このモデルは多くのユーザーに対して、しばしば非思考モードをデフォルトとするためである。
A bit sad how the GPT-5 launch is going so far, especially after the long wait and high expectations
– The automatic switching between models (the router) seems partly broken/unreliable
– It's unclear exactly which model you're actually interacting with (standard or mini,…
— Tibor Blaho (@btibor91) August 8, 2025
競合他社が機会を伺う
その結果、ChatGPT-5を取り巻く評価は uniformly positive(一様に楽観的)とはほど遠く——これは、GoogleやAnthropicのような米国の大手企業からの競争が激化し、さらに多くの米国モデルが備えていない能力を提供する、無料でオープンソースかつ有能な中国の大規模言語モデルの数が増え続けている中で、OpenAIにとって深刻な課題を提起している。
AlibabaのQwen研究チームを考えてみよう。彼らは本日、高性能モデルQwen 3をアップグレードし、100万トークンのコンコンテキスト長をサポートするようにした。これにより、ユーザーはGPT-5が現在提供している量の約4倍の情報を1回のインタラクションで交換できる。
今週OpenAIがリリースしたもう1つの主要な製品——新しいオープンソースのgpt-ossモデルシリーズ——も早期評価が賛否両論であることを考えると、ユーザー数をリードする専業AI企業(ChatGPTは現在週間アクティブユーザー数7億人を数える)の見通しは不透明である。
この見方は予測市場Polymarketでも反映されており、ユーザーは8月末までにGoogleがおそらく主要なAIモデルを有するようになると压倒的に賭けている。
Otherside AIの共同創業者兼CEOであるマット・シューマーのような他のパワーユーザー——彼は早期にGPT-5にアクセスし、肯定的なレビューを公開した——は、より多くの人々が自分たちのワークフローを新しいモデル用に最適化するにつれて、意見が変わる可能性を示唆した:
A lot of folks who are having a bad experience are using GPT-5 in agent harnesses that aren't yet optimized for it.
For every new model release, there's a time lag between release + when companies that integrate the model have it truly working well.
Agent companies rush to…
— Matt Shumer (@mattshumer_) August 8, 2025
GPT-5にとってはまだ初期段階であり、より多くの人々が様々なタスクでテストするにつれて意見は大きく変わる可能性があるが、初期の兆候は、これがGPT-4、GPT-4o、またはo3のような過去のローンチが示した「ホームラン」ではないことを示唆している。これは、最近追加の資金調達を達成したものの、高い研究開発費のために依然として収益化されていない企業にとっては気がかりな信号である。
関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
コメント (1)
0/500

更新:2025年8月8日金曜日 午後5時21分(ET):本記事公開後間もなく、OpenAIの共同創業者兼CEOサム・アルトマンは、特定のユーザーに対してGPT-4oおよびその他の旧モデルへのアクセスを復旧することを確認し、GPT-5のローンチが「我々が期待していたよりも困難なものとなった」と認識した。
控えめに言っても、大きく期待されていたOpenAIの新モデルGPT-5のローンチは、不安定なスタートを切った。
昨日の生配信による発表会(4つの異なるモデルと、そのうち3つで利用可能な「思考」モードを紹介した)でのグラフの誤りや音声デモの不具合はさておき、リリース以降の複数のユーザーレポートは、比較的単純な問題にGPT-5が苦戦している様子を示している。これらの問題は、以前のOpenAIモデルや、競合するAI研究所のライバルシステムでは正しく解決できていた。
例えば、データサイエンンティストのコリン・フレイザーは、GPT-5が数学の証明——具体的には、8.888の循環小数が9に等しいか否か(等しくない)——を誤って処理したスクリーンショットを共有した。
Wow, I was just playing around before but it actually is stupid pic.twitter.com/ao51nOH0Ui
— Colin Fraser (@colin_fraser) August 8, 2025
また、単純な数式である「5.9 = x + 5.11」——多くの小学生が解ける問題——でも失敗している。
This is concerning. https://t.co/PUbeCSgtRV
— Benjamin De Kraker (@BenjaminDEKR) August 8, 2025
OpenAI自身の欠陥がある発表会用チャートを評価させるためにGPT-5を使用しても、有用または正確な回答は得られなかった。
Q. Prove using an LLM-as-a-judge still doesn't work
— Kangwook Lee (@Kangwook_Lee) August 7, 2025
A. pic.twitter.com/KnCK5Xs9ja
さらに、このより難しい文章題(確かに、私でさえ最初は難しく感じた——ただしイーロン・マスクのGrok 4 AIは正答した。ヒント:敷石は分割できないため、80枚すべてをそのまま使用しなければならない)でもつまずいた。
Careful not to cut yourself on the jagged frontier pic.twitter.com/buJGgJ6baI
— Greg Burnham (@GregHBurnham) August 8, 2025
私のテストでは、旧モデルのGPT-4oは、これらの数学的問題の少なくとも1つをより確実に処理した。残念ながら、OpenAIはこれらの旧モデル——以前のデフォルトモデルであったGPT-4oや高度推論モデルo3を含む——をChatGPTユーザー向けに段階的に廃止している。ただし、近い将来においては開発者向けAPI経由では引き続きアクセス可能となる。
コーーディング性能はベンチマーク結果に及ばず
OpenAIの内部ベンチマークや特定の第三者テストではGPT-5がコーーディングにおいて最高性能のモデルであると示されているにもかかわらず、実際の使用感では、Anthropicが最近アップグレードしたClaude Opus 4.1の方が「ワンショット」タスク——ユーザーが意図したアプリケーションやソフトウェア構築を要求通りに提供する——をより効果的に処理することが多い。開発者ジャスティン・サンがXに投稿した以下の例を参照のこと:
Opus 4.1's one-shot attempt at "create a 3d capybara petting zoo" – 8 minutes total
— justin (@justinsunyt) August 7, 2025
This was honestly pretty insane, not only are the capybaras way cuter and moving, there are individual pet affinity levels, a day/night switcher, feeding, and even a screenshot feature pic.twitter.com/FiKTO3FKK4
さらに、セキュリティ企業SPLXの報告書によれば、OpenAIの内部安全対策は、ビジネス整合性や、プロンプトインジェクションおよび難読化されたロジック攻撃に対する脆弱性などの分野で重大なギャップがあった。
事例的ではあるが、AIのパワーーユーザーからの初期フィードバックは、全体的に生ぬるい評価を示唆している。
AIインインフルエンサーで元Google社員のビラワル・シシドゥは、Xでフォロワーに「バイブスチェック」を求める投票を実施した。これまでに172票が投じられ、優勢な回答は「まあまあ」であった。
Alright, GPT-5 vibe check
— Bilawal Sidhu (@bilawalsidhu) August 7, 2025
匿名のAI Leaks and Newsアカウントが指摘したように、「XとReddit AMA双方におけるGPT-5に対する圧倒的コンセンサスは、圧倒的に否定的である。」
The overwhelming consensus on GPT-5 from both X and the Reddit AMA are overwhelmingly negative
— AI Leaks and News (@AILeaksAndNews) August 8, 2025
Most users are disgruntled about the broken model picker and non-pro users not having access to legacy models
What are your initial thoughts on GPT-5?
AIPRMの主任エンジニアであり、Xで有名なAIコメンテーターであるティボル・ブラホは、ChatGPT-5のローンチに関する問題点を徹底的にまとめた。彼は、看板機能の1つ——クエリの複雑さに基づいて思考モードまたは非思考モードを自動選択する「ルーター」——が主要な不満点となっていると指摘した。このモデルは多くのユーザーに対して、しばしば非思考モードをデフォルトとするためである。
A bit sad how the GPT-5 launch is going so far, especially after the long wait and high expectations
— Tibor Blaho (@btibor91) August 8, 2025
– The automatic switching between models (the router) seems partly broken/unreliable
– It's unclear exactly which model you're actually interacting with (standard or mini,…
競合他社が機会を伺う
その結果、ChatGPT-5を取り巻く評価は uniformly positive(一様に楽観的)とはほど遠く——これは、GoogleやAnthropicのような米国の大手企業からの競争が激化し、さらに多くの米国モデルが備えていない能力を提供する、無料でオープンソースかつ有能な中国の大規模言語モデルの数が増え続けている中で、OpenAIにとって深刻な課題を提起している。
AlibabaのQwen研究チームを考えてみよう。彼らは本日、高性能モデルQwen 3をアップグレードし、100万トークンのコンコンテキスト長をサポートするようにした。これにより、ユーザーはGPT-5が現在提供している量の約4倍の情報を1回のインタラクションで交換できる。
今週OpenAIがリリースしたもう1つの主要な製品——新しいオープンソースのgpt-ossモデルシリーズ——も早期評価が賛否両論であることを考えると、ユーザー数をリードする専業AI企業(ChatGPTは現在週間アクティブユーザー数7億人を数える)の見通しは不透明である。
この見方は予測市場Polymarketでも反映されており、ユーザーは8月末までにGoogleがおそらく主要なAIモデルを有するようになると压倒的に賭けている。
Otherside AIの共同創業者兼CEOであるマット・シューマーのような他のパワーユーザー——彼は早期にGPT-5にアクセスし、肯定的なレビューを公開した——は、より多くの人々が自分たちのワークフローを新しいモデル用に最適化するにつれて、意見が変わる可能性を示唆した:
A lot of folks who are having a bad experience are using GPT-5 in agent harnesses that aren't yet optimized for it.
— Matt Shumer (@mattshumer_) August 8, 2025
For every new model release, there's a time lag between release + when companies that integrate the model have it truly working well.
Agent companies rush to…
GPT-5にとってはまだ初期段階であり、より多くの人々が様々なタスクでテストするにつれて意見は大きく変わる可能性があるが、初期の兆候は、これがGPT-4、GPT-4o、またはo3のような過去のローンチが示した「ホームラン」ではないことを示唆している。これは、最近追加の資金調達を達成したものの、高い研究開発費のために依然として収益化されていない企業にとっては気がかりな信号である。
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ





家






