OpenAIのo3 AIモデル、当初示唆されていたよりもベンチマークで低いスコアを獲得

AIにおいてベンチマークの不一致が重要な理由
AIに関しては、数字が物語ることが多く、時にはその数字が全く一致しないこともある。例えば、OpenAIのo3モデル。o3は悪名高いFrontierMathの問題の25%以上を処理できたと報告されている。ちなみに、競合他社は1桁台前半にとどまっていた。しかし、エポック社(Epoch AI)は最近、このシナリオに一石を投じた。彼らの調査結果によると、o3の実際の成績は10%近いという。悪くはないが、OpenAIが当初宣伝していたような、見出しを飾るような数字ではないことは確かだ。
本当のところはどうなのか?
分解してみよう。OpenAIの当初のスコアは、おそらく最適な条件下で達成されたものである。エポック社は、彼らのテスト環境はOpenAIのものとは若干異なる可能性があり、彼らが使用したFrontierMathのバージョンも新しかったと指摘している。OpenAIの最初の主張が内部テストと一致していたからといって、OpenAIが誰かを完全に欺いたというわけではないが、この相違はより広範な問題を浮き彫りにしている。ベンチマークの比較対象は、常に同じとは限らない。そして、現実を直視しよう。企業には、最善の努力をするインセンティブがあるのだ。
透明性の役割
この状況は重要な問題を提起している:AI企業は結果を共有する際、どの程度透明性を保つべきか?OpenAIは明らかな嘘をついたわけではないが、彼らのメッセージングは、十分に満たされない期待を抱かせた。これは微妙なバランスだ。企業は自社の進歩をアピールしたいが、その数字が本当は何を意味するのかについても正直である必要がある。AIがますます日常生活に溶け込むにつれ、消費者も研究者も同様に、より明確な答えを求めるようになるだろう。
業界におけるその他の論争
ベンチマークの失敗はOpenAIに限ったことではない。AI分野の他のプレーヤーも同様の精査に直面している。1月、エポック社はo3の発表直前にOpenAIから未公開の資金提供を受け、大炎上した。一方、イーロン・マスクのxAIは、Grok 3を実際よりも良く見せるためにベンチマークチャートをいじったとされ、非難を浴びた。テック大手のひとつであるMetaでさえ、最近、公開されていないモデルに基づいてスコアを宣伝したことを認めた。明らかに、ヘッドラインを独占しようとする競争は過熱しており、誰もが公平にプレーしているわけではない。
今後の展望
このような論争は落胆させるように思えるかもしれないが、実は進歩の兆しでもある。AIが成熟するにつれ、説明責任をめぐる議論も成熟している。消費者や研究者が透明性の向上を求めているのは良いことだ。これは良いことで、企業は成果をどのように示すかについてより思慮深くなることを余儀なくされ、ユーザーが非現実的な誇大広告に振り回されないようにする。結局のところ、目標は数字を弄ぶことではなく、この分野を純粋に発展させるモデルを構築することなのだ。
関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
コメント (6)
0/500
Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔
Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔
오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.
I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎
The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!
The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

AIにおいてベンチマークの不一致が重要な理由
AIに関しては、数字が物語ることが多く、時にはその数字が全く一致しないこともある。例えば、OpenAIのo3モデル。o3は悪名高いFrontierMathの問題の25%以上を処理できたと報告されている。ちなみに、競合他社は1桁台前半にとどまっていた。しかし、エポック社(Epoch AI)は最近、このシナリオに一石を投じた。彼らの調査結果によると、o3の実際の成績は10%近いという。悪くはないが、OpenAIが当初宣伝していたような、見出しを飾るような数字ではないことは確かだ。
本当のところはどうなのか?
分解してみよう。OpenAIの当初のスコアは、おそらく最適な条件下で達成されたものである。エポック社は、彼らのテスト環境はOpenAIのものとは若干異なる可能性があり、彼らが使用したFrontierMathのバージョンも新しかったと指摘している。OpenAIの最初の主張が内部テストと一致していたからといって、OpenAIが誰かを完全に欺いたというわけではないが、この相違はより広範な問題を浮き彫りにしている。ベンチマークの比較対象は、常に同じとは限らない。そして、現実を直視しよう。企業には、最善の努力をするインセンティブがあるのだ。
透明性の役割
この状況は重要な問題を提起している:AI企業は結果を共有する際、どの程度透明性を保つべきか?OpenAIは明らかな嘘をついたわけではないが、彼らのメッセージングは、十分に満たされない期待を抱かせた。これは微妙なバランスだ。企業は自社の進歩をアピールしたいが、その数字が本当は何を意味するのかについても正直である必要がある。AIがますます日常生活に溶け込むにつれ、消費者も研究者も同様に、より明確な答えを求めるようになるだろう。
業界におけるその他の論争
ベンチマークの失敗はOpenAIに限ったことではない。AI分野の他のプレーヤーも同様の精査に直面している。1月、エポック社はo3の発表直前にOpenAIから未公開の資金提供を受け、大炎上した。一方、イーロン・マスクのxAIは、Grok 3を実際よりも良く見せるためにベンチマークチャートをいじったとされ、非難を浴びた。テック大手のひとつであるMetaでさえ、最近、公開されていないモデルに基づいてスコアを宣伝したことを認めた。明らかに、ヘッドラインを独占しようとする競争は過熱しており、誰もが公平にプレーしているわけではない。
今後の展望
このような論争は落胆させるように思えるかもしれないが、実は進歩の兆しでもある。AIが成熟するにつれ、説明責任をめぐる議論も成熟している。消費者や研究者が透明性の向上を求めているのは良いことだ。これは良いことで、企業は成果をどのように示すかについてより思慮深くなることを余儀なくされ、ユーザーが非現実的な誇大広告に振り回されないようにする。結局のところ、目標は数字を弄ぶことではなく、この分野を純粋に発展させるモデルを構築することなのだ。
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔
Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔
오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.
I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎
The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!
The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?





家






