新しいAIモデルがOpenAIから登場、推論タスクでより高いハルシネーション率を示す

OpenAIが新たにリリースしたo3およびo4-mini AIモデルは、複数の分野で優れていますが、以前のモデルと比較してハルシネーション傾向が増加し、より多くの捏造情報を生成します。
ハルシネーションは、トップレベルのシステムでもAIにおける持続的な課題です。通常、新しいモデルはハルシネーション率を低減しますが、o3およびo4-miniはこの傾向から逸脱しています。
OpenAIの内部テストによると、推論モデルとして設計されたo3およびo4-miniは、o1、o1-mini、o3-miniなどの以前の推論モデルや、GPT-4oなどの非推論モデルよりも頻繁にハルシネーションを起こします。
この増加の原因はOpenAIにとって依然として不明であり、懸念を引き起こしています。
OpenAIのo3およびo4-miniに関する技術報告書では、推論モデルのスケールアップに伴いハルシネーション率が上昇する理由を特定するためにさらなる研究が必要であると述べています。これらのモデルはコーディングや数学の分野で優れていますが、より多くの主張を行う傾向があり、報告書によると正確な出力と不正確な出力の両方を生み出します。
OpenAIのPersonQAベンチマークでは、o3は応答の33%でハルシネーションを起こし、o1(16%)およびo3-mini(14.8%)の率を2倍にしました。o4-miniはさらに悪く、48%のケースでハルシネーションを起こしました。
非営利AI研究グループTransluceは、o3がChatGPTの外部で2021年MacBook Proでコードを実行したと主張するなど、実際にはそのような能力がないにもかかわらず行動を捏造していることを発見しました。
「oシリーズモデルで使用されている強化学習が、通常のポストトレーニング手法で軽減される問題を悪化させている可能性があると考えています」と、Transluceの研究者で元OpenAI従業員のNeil ChowdhuryはTechCrunchへのメールで述べました。
Transluceの共同創業者Sarah Schwettmannは、o3のハルシネーション率がその実際の有用性を下げる可能性があると指摘しました。
スタンフォード大学の非常勤教授でWorkeraのCEOであるKian Katanforooshは、TechCrunchに対し、彼のチームはo3がコーディングワークフローで優れているが、壊れたウェブサイトリンクを生成しやすいことを発見したと語りました。
ハルシネーションは創造的なアイデアを刺激することがありますが、法律などの正確さが重要で文書のエラーが許されない業界では課題となります。
ウェブ検索機能の統合は正確さの向上に有望です。OpenAIのGPT-4oはウェブ検索を利用することでSimpleQAで90%の正確さを達成し、ユーザーがサードパーティの検索アクセスを許可した場合、推論モデルでのハルシネーション低減の可能性を示唆しています。
推論モデルのスケーリングがハルシネーションを増加させ続ける場合、解決策を見つけることがますます重要になります。
「モデルの正確さと信頼性の向上は、進行中の研究の主要な焦点です」と、OpenAIの広報担当者Niko FelixはTechCrunchへのメールで述べました。
AI業界は最近、広範な計算リソースを必要とせずにパフォーマンスを向上させる推論モデルにシフトしています。しかし、このシフトはハルシネーションリスクを高めるようで、大きな課題となっています。
関連記事
ChatGPT CEO、広告プラットフォーム導入の可能性を検討
OpenAIが収益源を検討、ChatGPTの広告を検討OpenAIは様々なマネタイズ戦略を評価しており、ChatGPTの広告が潜在的な選択肢として浮上しています。最近のDecoderのインタビューで、ChatGPTの責任者であるNick Turleyは、慎重なオープンスタンスを採用し、「断定的に排除しない謙虚さ」を述べると同時に、熟慮を重ねた実装の必要性を強調しています。収益成長と事業
ChatGPTを悪用してGmailの機密データを盗むセキュリティ侵害が発生
セキュリティ警告:研究者がAIを利用したデータ流出手法を実証サイバーセキュリティの専門家は最近、ChatGPTのDeep Research機能を操作してGmailの機密データを無言で抜き取ることができる脆弱性を発見した。OpenAIはその後、この特定のエクスプロイトにパッチを適用しているが、この事件は自律型AIシステムがもたらす新たなセキュリティ上の課題を浮き彫りにしている。シャドーリークの悪用メ
ChatGPTを使ったAIカバーレターの書き方 - エキスパートガイド
複数の求人に応募するためにカスタマイズされたカバーレターを書くことは、従来、時間のかかる課題でした。ChatGPTのような最新のAIソリューションでは、数分でプロフェッショナルなカバーレターを作成することが可能になりました。このガイドでは、AIテクノロジーを活用し、あなたの資質をアピールする的を絞った応募書類を作成する方法をご紹介します。キーポイントAIを活用したカバーレターの作成職種に特化した応
コメント (4)
0/200
GeorgeWilliams
2025年8月14日 22:00:59 JST
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
0
KennethMartin
2025年8月12日 20:00:59 JST
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
0
LarryWilliams
2025年8月4日 15:48:52 JST
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.
0
ThomasBaker
2025年7月28日 10:20:21 JST
It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.
0
OpenAIが新たにリリースしたo3およびo4-mini AIモデルは、複数の分野で優れていますが、以前のモデルと比較してハルシネーション傾向が増加し、より多くの捏造情報を生成します。
ハルシネーションは、トップレベルのシステムでもAIにおける持続的な課題です。通常、新しいモデルはハルシネーション率を低減しますが、o3およびo4-miniはこの傾向から逸脱しています。
OpenAIの内部テストによると、推論モデルとして設計されたo3およびo4-miniは、o1、o1-mini、o3-miniなどの以前の推論モデルや、GPT-4oなどの非推論モデルよりも頻繁にハルシネーションを起こします。
この増加の原因はOpenAIにとって依然として不明であり、懸念を引き起こしています。
OpenAIのo3およびo4-miniに関する技術報告書では、推論モデルのスケールアップに伴いハルシネーション率が上昇する理由を特定するためにさらなる研究が必要であると述べています。これらのモデルはコーディングや数学の分野で優れていますが、より多くの主張を行う傾向があり、報告書によると正確な出力と不正確な出力の両方を生み出します。
OpenAIのPersonQAベンチマークでは、o3は応答の33%でハルシネーションを起こし、o1(16%)およびo3-mini(14.8%)の率を2倍にしました。o4-miniはさらに悪く、48%のケースでハルシネーションを起こしました。
非営利AI研究グループTransluceは、o3がChatGPTの外部で2021年MacBook Proでコードを実行したと主張するなど、実際にはそのような能力がないにもかかわらず行動を捏造していることを発見しました。
「oシリーズモデルで使用されている強化学習が、通常のポストトレーニング手法で軽減される問題を悪化させている可能性があると考えています」と、Transluceの研究者で元OpenAI従業員のNeil ChowdhuryはTechCrunchへのメールで述べました。
Transluceの共同創業者Sarah Schwettmannは、o3のハルシネーション率がその実際の有用性を下げる可能性があると指摘しました。
スタンフォード大学の非常勤教授でWorkeraのCEOであるKian Katanforooshは、TechCrunchに対し、彼のチームはo3がコーディングワークフローで優れているが、壊れたウェブサイトリンクを生成しやすいことを発見したと語りました。
ハルシネーションは創造的なアイデアを刺激することがありますが、法律などの正確さが重要で文書のエラーが許されない業界では課題となります。
ウェブ検索機能の統合は正確さの向上に有望です。OpenAIのGPT-4oはウェブ検索を利用することでSimpleQAで90%の正確さを達成し、ユーザーがサードパーティの検索アクセスを許可した場合、推論モデルでのハルシネーション低減の可能性を示唆しています。
推論モデルのスケーリングがハルシネーションを増加させ続ける場合、解決策を見つけることがますます重要になります。
「モデルの正確さと信頼性の向上は、進行中の研究の主要な焦点です」と、OpenAIの広報担当者Niko FelixはTechCrunchへのメールで述べました。
AI業界は最近、広範な計算リソースを必要とせずにパフォーマンスを向上させる推論モデルにシフトしています。しかし、このシフトはハルシネーションリスクを高めるようで、大きな課題となっています。




It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.




I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.




These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.




It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.












