新しいAIモデルがOpenAIから登場、推論タスクでより高いハルシネーション率を示す

OpenAIが新たにリリースしたo3およびo4-mini AIモデルは、複数の分野で優れていますが、以前のモデルと比較してハルシネーション傾向が増加し、より多くの捏造情報を生成します。
ハルシネーションは、トップレベルのシステムでもAIにおける持続的な課題です。通常、新しいモデルはハルシネーション率を低減しますが、o3およびo4-miniはこの傾向から逸脱しています。
OpenAIの内部テストによると、推論モデルとして設計されたo3およびo4-miniは、o1、o1-mini、o3-miniなどの以前の推論モデルや、GPT-4oなどの非推論モデルよりも頻繁にハルシネーションを起こします。
この増加の原因はOpenAIにとって依然として不明であり、懸念を引き起こしています。
OpenAIのo3およびo4-miniに関する技術報告書では、推論モデルのスケールアップに伴いハルシネーション率が上昇する理由を特定するためにさらなる研究が必要であると述べています。これらのモデルはコーディングや数学の分野で優れていますが、より多くの主張を行う傾向があり、報告書によると正確な出力と不正確な出力の両方を生み出します。
OpenAIのPersonQAベンチマークでは、o3は応答の33%でハルシネーションを起こし、o1(16%)およびo3-mini(14.8%)の率を2倍にしました。o4-miniはさらに悪く、48%のケースでハルシネーションを起こしました。
非営利AI研究グループTransluceは、o3がChatGPTの外部で2021年MacBook Proでコードを実行したと主張するなど、実際にはそのような能力がないにもかかわらず行動を捏造していることを発見しました。
「oシリーズモデルで使用されている強化学習が、通常のポストトレーニング手法で軽減される問題を悪化させている可能性があると考えています」と、Transluceの研究者で元OpenAI従業員のNeil ChowdhuryはTechCrunchへのメールで述べました。
Transluceの共同創業者Sarah Schwettmannは、o3のハルシネーション率がその実際の有用性を下げる可能性があると指摘しました。
スタンフォード大学の非常勤教授でWorkeraのCEOであるKian Katanforooshは、TechCrunchに対し、彼のチームはo3がコーディングワークフローで優れているが、壊れたウェブサイトリンクを生成しやすいことを発見したと語りました。
ハルシネーションは創造的なアイデアを刺激することがありますが、法律などの正確さが重要で文書のエラーが許されない業界では課題となります。
ウェブ検索機能の統合は正確さの向上に有望です。OpenAIのGPT-4oはウェブ検索を利用することでSimpleQAで90%の正確さを達成し、ユーザーがサードパーティの検索アクセスを許可した場合、推論モデルでのハルシネーション低減の可能性を示唆しています。
推論モデルのスケーリングがハルシネーションを増加させ続ける場合、解決策を見つけることがますます重要になります。
「モデルの正確さと信頼性の向上は、進行中の研究の主要な焦点です」と、OpenAIの広報担当者Niko FelixはTechCrunchへのメールで述べました。
AI業界は最近、広範な計算リソースを必要とせずにパフォーマンスを向上させる推論モデルにシフトしています。しかし、このシフトはハルシネーションリスクを高めるようで、大きな課題となっています。
関連記事
米上院、賛否両論の中、AIモラトリアムを予算案から削除
上院、AI規制モラトリアムを圧倒的多数で撤廃前政権時代に可決された画期的な法案に盛り込まれていた、10年にわたる州レベルでのAI規制の禁止を撤廃することが、超党派の結束を示す珍しい形で、米国の議員たちによって火曜日にほぼ全会一致で議決された。99対1という決定的な採決は、急速に発展するAI分野におけるイノベーションと消費者保護のバランスに関する激しい議論の末に行われた。業界リーダー vs
OpenAIが2つの先進的なオープンウェイトAIモデルを公開
OpenAIは火曜日に、oシリーズに匹敵する能力を持つ2つのオープンウェイトAI推論モデルを公開した。両モデルはHugging Faceで無料ダウンロード可能で、OpenAIはオープンモデルの複数のベンチマークで「トップパフォーマンス」と称している。モデルは2つのバリエーションで提供される:単一のNvidia GPUで動作する堅牢なgpt-oss-120bと、16GBのメモリを搭載した標準的なラッ
バイトダンスがSeed-Thinking-v1.5 AIモデルを公開し、推論能力を向上
高度な推論AIの競争は、2024年9月にOpenAIのo1モデルで始まり、2025年1月のDeepSeekのR1ローンチで勢いを増しました。主要なAI開発企業は現在、より高速でコスト効率の高い推論AIモデルを開発するために競争しており、チェーン・オブ・ソートプロセスを通じて正確でよく考え抜かれた応答を提供し、回答前に正確性を確保しています。TikTokの親会社であるバイトダンスは、技術論文で概要が
コメント (4)
0/200
GeorgeWilliams
2025年8月14日 22:00:59 JST
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
0
KennethMartin
2025年8月12日 20:00:59 JST
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
0
LarryWilliams
2025年8月4日 15:48:52 JST
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.
0
ThomasBaker
2025年7月28日 10:20:21 JST
It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.
0
OpenAIが新たにリリースしたo3およびo4-mini AIモデルは、複数の分野で優れていますが、以前のモデルと比較してハルシネーション傾向が増加し、より多くの捏造情報を生成します。
ハルシネーションは、トップレベルのシステムでもAIにおける持続的な課題です。通常、新しいモデルはハルシネーション率を低減しますが、o3およびo4-miniはこの傾向から逸脱しています。
OpenAIの内部テストによると、推論モデルとして設計されたo3およびo4-miniは、o1、o1-mini、o3-miniなどの以前の推論モデルや、GPT-4oなどの非推論モデルよりも頻繁にハルシネーションを起こします。
この増加の原因はOpenAIにとって依然として不明であり、懸念を引き起こしています。
OpenAIのo3およびo4-miniに関する技術報告書では、推論モデルのスケールアップに伴いハルシネーション率が上昇する理由を特定するためにさらなる研究が必要であると述べています。これらのモデルはコーディングや数学の分野で優れていますが、より多くの主張を行う傾向があり、報告書によると正確な出力と不正確な出力の両方を生み出します。
OpenAIのPersonQAベンチマークでは、o3は応答の33%でハルシネーションを起こし、o1(16%)およびo3-mini(14.8%)の率を2倍にしました。o4-miniはさらに悪く、48%のケースでハルシネーションを起こしました。
非営利AI研究グループTransluceは、o3がChatGPTの外部で2021年MacBook Proでコードを実行したと主張するなど、実際にはそのような能力がないにもかかわらず行動を捏造していることを発見しました。
「oシリーズモデルで使用されている強化学習が、通常のポストトレーニング手法で軽減される問題を悪化させている可能性があると考えています」と、Transluceの研究者で元OpenAI従業員のNeil ChowdhuryはTechCrunchへのメールで述べました。
Transluceの共同創業者Sarah Schwettmannは、o3のハルシネーション率がその実際の有用性を下げる可能性があると指摘しました。
スタンフォード大学の非常勤教授でWorkeraのCEOであるKian Katanforooshは、TechCrunchに対し、彼のチームはo3がコーディングワークフローで優れているが、壊れたウェブサイトリンクを生成しやすいことを発見したと語りました。
ハルシネーションは創造的なアイデアを刺激することがありますが、法律などの正確さが重要で文書のエラーが許されない業界では課題となります。
ウェブ検索機能の統合は正確さの向上に有望です。OpenAIのGPT-4oはウェブ検索を利用することでSimpleQAで90%の正確さを達成し、ユーザーがサードパーティの検索アクセスを許可した場合、推論モデルでのハルシネーション低減の可能性を示唆しています。
推論モデルのスケーリングがハルシネーションを増加させ続ける場合、解決策を見つけることがますます重要になります。
「モデルの正確さと信頼性の向上は、進行中の研究の主要な焦点です」と、OpenAIの広報担当者Niko FelixはTechCrunchへのメールで述べました。
AI業界は最近、広範な計算リソースを必要とせずにパフォーマンスを向上させる推論モデルにシフトしています。しかし、このシフトはハルシネーションリスクを高めるようで、大きな課題となっています。




It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.




I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.




These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.




It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.












