OpenAIのo3 AIモデル、当初示唆されていたよりもベンチマークで低いスコアを獲得

家

ニュース

2025年6月7日

PatrickGonzález

# openai # o3

OpenAIのo3 AIモデル、当初示唆されていたよりもベンチマークで低いスコアを獲得

AIにおいてベンチマークの不一致が重要な理由

AIに関しては、数字が物語ることが多く、時にはその数字が全く一致しないこともある。例えば、OpenAIのo3モデル。o3は悪名高いFrontierMathの問題の25％以上を処理できたと報告されている。ちなみに、競合他社は1桁台前半にとどまっていた。しかし、エポック社（Epoch AI）は最近、このシナリオに一石を投じた。彼らの調査結果によると、o3の実際の成績は10％近いという。悪くはないが、OpenAIが当初宣伝していたような、見出しを飾るような数字ではないことは確かだ。

本当のところはどうなのか？

分解してみよう。OpenAIの当初のスコアは、おそらく最適な条件下で達成されたものである。エポック社は、彼らのテスト環境はOpenAIのものとは若干異なる可能性があり、彼らが使用したFrontierMathのバージョンも新しかったと指摘している。OpenAIの最初の主張が内部テストと一致していたからといって、OpenAIが誰かを完全に欺いたというわけではないが、この相違はより広範な問題を浮き彫りにしている。ベンチマークの比較対象は、常に同じとは限らない。そして、現実を直視しよう。企業には、最善の努力をするインセンティブがあるのだ。

透明性の役割

この状況は重要な問題を提起している：AI企業は結果を共有する際、どの程度透明性を保つべきか？OpenAIは明らかな嘘をついたわけではないが、彼らのメッセージングは、十分に満たされない期待を抱かせた。これは微妙なバランスだ。企業は自社の進歩をアピールしたいが、その数字が本当は何を意味するのかについても正直である必要がある。AIがますます日常生活に溶け込むにつれ、消費者も研究者も同様に、より明確な答えを求めるようになるだろう。

業界におけるその他の論争

ベンチマークの失敗はOpenAIに限ったことではない。AI分野の他のプレーヤーも同様の精査に直面している。1月、エポック社はo3の発表直前にOpenAIから未公開の資金提供を受け、大炎上した。一方、イーロン・マスクのxAIは、Grok 3を実際よりも良く見せるためにベンチマークチャートをいじったとされ、非難を浴びた。テック大手のひとつであるMetaでさえ、最近、公開されていないモデルに基づいてスコアを宣伝したことを認めた。明らかに、ヘッドラインを独占しようとする競争は過熱しており、誰もが公平にプレーしているわけではない。

今後の展望

このような論争は落胆させるように思えるかもしれないが、実は進歩の兆しでもある。AIが成熟するにつれ、説明責任をめぐる議論も成熟している。消費者や研究者が透明性の向上を求めているのは良いことだ。これは良いことで、企業は成果をどのように示すかについてより思慮深くなることを余儀なくされ、ユーザーが非現実的な誇大広告に振り回されないようにする。結局のところ、目標は数字を弄ぶことではなく、この分野を純粋に発展させるモデルを構築することなのだ。

非営利団体、AIエージェントを活用してチャリティ募金活動を強化大手テック企業がAIの "エージェント "をビジネスの生産性向上剤として推進する一方で、ある非営利団体はAIが社会的利益に貢献する可能性を実証している。オープン・フィランソロピーが支援する慈善研究グループ、セージ・フューチャーは最近、AIモデルが慈善活動の資金調達にどのように協力できるかを示す革新的な実験を行った。この非営利団体は、OpenAIのGPT-4oとo1、AnthropicのClau

トップAI研究所は、人類はAIシステムを理解する力を失いつつあると警告する OpenAI、Google DeepMind、Anthropic、Metaの研究者は、前例のない団結を示し、競争上の相違を脇に置いて、責任あるAI開発について集団で警告を発した。これらの通常ライバル関係にある組織から40人以上の一流の科学者が、AIの意思決定プロセスの透明性を確保するための窓が急速に狭まっていることを強調する画期的な研究論文を共同執筆した。この共同研究は、現代のAIシステムにおける

ChatGPT、ファイルアクセスにGoogle DriveとDropboxの統合を追加 ChatGPTが企業向け新機能で生産性を向上OpenAIは、ChatGPTを包括的なビジネス生産性ツールに変える2つの強力な新機能を発表しました：自動会議文書化とシームレスなクラウドストレージ統合です。革命的な録音機能新しく導入された "記録モード "は、自動テープ起こしや分析を可能にします：重要なビジネス会議創造的なブレーンストーミングセッション個人の思考プロセスこの

コメント (4)

0/200

提出する

FrankSmith

2025年9月10日 15:30:33 JST

오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.

LiamWalker

2025年8月12日 15:50:10 JST

I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎

FrankLewis

2025年8月7日 11:41:14 JST

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter

2025年7月29日 21:25:16 JST

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

トップニュース

Gemini 2.5 ProはClaudeよりも無制限で安価で、GPT-4O 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 AIボイスオーバー：リアルな声制作究極ガイドカンビウムのAIは、廃棄物を木材に変換します Openaiは、より良いチャットのためにAIの音声アシスタントを強化します AI統合のためにデータが信頼できることを確認する方法 Notebooklmはグローバルに拡張し、スライドを追加し、ファクトチェックを強化します米国のデータセンターへの微調整は、76 GWの新しい電源容量のロックを解除できます GoogleはAIを利用して、詐欺の疑いのために3900万を超える広告アカウントを一時停止します AIボイスクローン：音声変換を極めるための完全ガイド

もっと

特集