新しいAIモデルがOpenAIから登場、推論タスクでより高いハルシネーション率を示す

OpenAIが新たにリリースしたo3およびo4-mini AIモデルは、複数の分野で優れていますが、以前のモデルと比較してハルシネーション傾向が増加し、より多くの捏造情報を生成します。
ハルシネーションは、トップレベルのシステムでもAIにおける持続的な課題です。通常、新しいモデルはハルシネーション率を低減しますが、o3およびo4-miniはこの傾向から逸脱しています。
OpenAIの内部テストによると、推論モデルとして設計されたo3およびo4-miniは、o1、o1-mini、o3-miniなどの以前の推論モデルや、GPT-4oなどの非推論モデルよりも頻繁にハルシネーションを起こします。
この増加の原因はOpenAIにとって依然として不明であり、懸念を引き起こしています。
OpenAIのo3およびo4-miniに関する技術報告書では、推論モデルのスケールアップに伴いハルシネーション率が上昇する理由を特定するためにさらなる研究が必要であると述べています。これらのモデルはコーディングや数学の分野で優れていますが、より多くの主張を行う傾向があり、報告書によると正確な出力と不正確な出力の両方を生み出します。
OpenAIのPersonQAベンチマークでは、o3は応答の33%でハルシネーションを起こし、o1(16%)およびo3-mini(14.8%)の率を2倍にしました。o4-miniはさらに悪く、48%のケースでハルシネーションを起こしました。
非営利AI研究グループTransluceは、o3がChatGPTの外部で2021年MacBook Proでコードを実行したと主張するなど、実際にはそのような能力がないにもかかわらず行動を捏造していることを発見しました。
「oシリーズモデルで使用されている強化学習が、通常のポストトレーニング手法で軽減される問題を悪化させている可能性があると考えています」と、Transluceの研究者で元OpenAI従業員のNeil ChowdhuryはTechCrunchへのメールで述べました。
Transluceの共同創業者Sarah Schwettmannは、o3のハルシネーション率がその実際の有用性を下げる可能性があると指摘しました。
スタンフォード大学の非常勤教授でWorkeraのCEOであるKian Katanforooshは、TechCrunchに対し、彼のチームはo3がコーディングワークフローで優れているが、壊れたウェブサイトリンクを生成しやすいことを発見したと語りました。
ハルシネーションは創造的なアイデアを刺激することがありますが、法律などの正確さが重要で文書のエラーが許されない業界では課題となります。
ウェブ検索機能の統合は正確さの向上に有望です。OpenAIのGPT-4oはウェブ検索を利用することでSimpleQAで90%の正確さを達成し、ユーザーがサードパーティの検索アクセスを許可した場合、推論モデルでのハルシネーション低減の可能性を示唆しています。
推論モデルのスケーリングがハルシネーションを増加させ続ける場合、解決策を見つけることがますます重要になります。
「モデルの正確さと信頼性の向上は、進行中の研究の主要な焦点です」と、OpenAIの広報担当者Niko FelixはTechCrunchへのメールで述べました。
AI業界は最近、広範な計算リソースを必要とせずにパフォーマンスを向上させる推論モデルにシフトしています。しかし、このシフトはハルシネーションリスクを高めるようで、大きな課題となっています。
関連記事
AI研究者のグリーンカード拒否が米国の人材保持に懸念を引き起こす
カナダ出身のAI専門家でOpenAIに所属するカイ・チェン氏は、米国で12年間過ごした後、グリーンカードを拒否されたと、同社の著名な研究科学者ノアム・ブラウン氏が明らかにした。Xへの投稿で、ブラウン氏はチェン氏が金曜日にその決定を知り、近いうちに米国を離れなければならないと述べた。「私が一緒に仕事をした中で最も優れたAI研究者の一人[…]が米国のグリーンカードを拒否されたのは驚くべきことだ」とブラ
ワシントン・ポストがOpenAIと提携し、ChatGPTを通じてニュースアクセスを強化
ワシントン・ポストとOpenAIは、ワシントン・ポストのプレスリリースによると、「信頼できるニュースへのアクセスを拡大する」ための「戦略的パートナーシップ」を発表しました。OpenAIは、News Corp、Business Insiderの親会社であるThe Associated Press、Axel Springer、Condé Nast、Financial Times、Future、Hear
OpenAIが非営利のルーツを再確認、主要な企業再編の中で
OpenAIは、倫理的なAI開発へのコミットメントと成長のバランスを取りながら、大きな企業再編を進め、非営利のミッションに揺るぎなく取り組んでいます。CEOのサム・アルトマンは、会社のビジョンを概説し、財務戦略が進化している一方で、人工汎用知能(AGI)をグローバルな利益のために進めるOpenAIの献身は変わらないと強調しました。公開声明で、アルトマンは次のように述べました:「OpenAIは従来の
コメント (0)
0/200
OpenAIが新たにリリースしたo3およびo4-mini AIモデルは、複数の分野で優れていますが、以前のモデルと比較してハルシネーション傾向が増加し、より多くの捏造情報を生成します。
ハルシネーションは、トップレベルのシステムでもAIにおける持続的な課題です。通常、新しいモデルはハルシネーション率を低減しますが、o3およびo4-miniはこの傾向から逸脱しています。
OpenAIの内部テストによると、推論モデルとして設計されたo3およびo4-miniは、o1、o1-mini、o3-miniなどの以前の推論モデルや、GPT-4oなどの非推論モデルよりも頻繁にハルシネーションを起こします。
この増加の原因はOpenAIにとって依然として不明であり、懸念を引き起こしています。
OpenAIのo3およびo4-miniに関する技術報告書では、推論モデルのスケールアップに伴いハルシネーション率が上昇する理由を特定するためにさらなる研究が必要であると述べています。これらのモデルはコーディングや数学の分野で優れていますが、より多くの主張を行う傾向があり、報告書によると正確な出力と不正確な出力の両方を生み出します。
OpenAIのPersonQAベンチマークでは、o3は応答の33%でハルシネーションを起こし、o1(16%)およびo3-mini(14.8%)の率を2倍にしました。o4-miniはさらに悪く、48%のケースでハルシネーションを起こしました。
非営利AI研究グループTransluceは、o3がChatGPTの外部で2021年MacBook Proでコードを実行したと主張するなど、実際にはそのような能力がないにもかかわらず行動を捏造していることを発見しました。
「oシリーズモデルで使用されている強化学習が、通常のポストトレーニング手法で軽減される問題を悪化させている可能性があると考えています」と、Transluceの研究者で元OpenAI従業員のNeil ChowdhuryはTechCrunchへのメールで述べました。
Transluceの共同創業者Sarah Schwettmannは、o3のハルシネーション率がその実際の有用性を下げる可能性があると指摘しました。
スタンフォード大学の非常勤教授でWorkeraのCEOであるKian Katanforooshは、TechCrunchに対し、彼のチームはo3がコーディングワークフローで優れているが、壊れたウェブサイトリンクを生成しやすいことを発見したと語りました。
ハルシネーションは創造的なアイデアを刺激することがありますが、法律などの正確さが重要で文書のエラーが許されない業界では課題となります。
ウェブ検索機能の統合は正確さの向上に有望です。OpenAIのGPT-4oはウェブ検索を利用することでSimpleQAで90%の正確さを達成し、ユーザーがサードパーティの検索アクセスを許可した場合、推論モデルでのハルシネーション低減の可能性を示唆しています。
推論モデルのスケーリングがハルシネーションを増加させ続ける場合、解決策を見つけることがますます重要になります。
「モデルの正確さと信頼性の向上は、進行中の研究の主要な焦点です」と、OpenAIの広報担当者Niko FelixはTechCrunchへのメールで述べました。
AI業界は最近、広範な計算リソースを必要とせずにパフォーマンスを向上させる推論モデルにシフトしています。しかし、このシフトはハルシネーションリスクを高めるようで、大きな課題となっています。











