OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準

為什麼人工智慧的基準差異很重要?
談到人工智能,數字往往能說明一切--有時候,這些數字加起來並不完全吻合。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人瞠目:據報,o3 可以處理超過 25% 難度極高的 FrontierMath 問題。在當時的情況下,競爭對手只能處理低個位數的問題。但快進到最近的發展,Epoch AI(一個受人尊敬的研究機構)對這種說法提出了質疑。他們的研究結果顯示,o3 的實際表現徘徊在 10% 左右。還不錯,但肯定不是 OpenAI 最初所吹捧的頭條數字。
到底發生了什麼事?
我們來分析一下。OpenAI最初的得分很可能是在最佳條件下取得的--這些條件在現實世界中可能無法完全複製。Epoch 指出,他們的測試環境可能與 OpenAI 的略有不同,甚至他們使用的 FrontierMath 版本也較新。這並不是說 OpenAI 徹底誤導了任何人;他們最初的聲稱與內部測試一致,但這個差異突顯了一個更廣泛的問題。基準並不總是蘋果對蘋果的比較。而且讓我們面對現實吧,公司都有誘因要把自己最好的一面展現出來。
透明度的作用
這種情況帶出了一個重要的問題:AI 公司在分享結果時應該有多透明?雖然 OpenAI 並沒有徹底說謊,但他們的訊息確實讓人產生期望,而這些期望並沒有完全達成。這是一個微妙的平衡。公司想要展示他們的進步,但也需要誠實地說明這些數字的真正意義。隨著人工智能逐漸融入日常生活,消費者和研究人員都會要求更清楚的答案。
業界其他爭議
Benchmarking 的失誤並非 OpenAI 所獨有。人工智能領域的其他廠商也面臨類似的審查。早在 1 月份,Epoch 就因為在 o3 宣佈之前接受了 OpenAI 未公開的資金而身陷水深火熱之中。與此同時,Elon Musk 的 xAI 因為涉嫌調整他們的基準圖表,讓 Grok 3 看起來比實際表現更好而受到抨擊。即使是科技巨頭之一的 Meta,最近也承認根據一個未公開的模型來推廣分數。顯而易見,主宰頭條新聞的競賽正在升溫,而且並非每個人都能公平競爭。
展望未來
雖然這些爭議看似令人沮喪,但實際上卻是進步的跡象。隨著人工智慧領域的成熟,圍繞責任的討論也日趨成熟。消費者和研究人員正在推動提高透明度,這是一件好事。這能迫使公司在呈現成就時更加深思熟慮,也能確保使用者不會被不切實際的炒作所迷惑。歸根結柢,我們的目標不應該是玩弄數字遊戲,而應該是建立能真正推動該領域發展的模型。
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
評論 (6)
0/500
Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔
Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔
오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.
I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎
The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!
The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

為什麼人工智慧的基準差異很重要?
談到人工智能,數字往往能說明一切--有時候,這些數字加起來並不完全吻合。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人瞠目:據報,o3 可以處理超過 25% 難度極高的 FrontierMath 問題。在當時的情況下,競爭對手只能處理低個位數的問題。但快進到最近的發展,Epoch AI(一個受人尊敬的研究機構)對這種說法提出了質疑。他們的研究結果顯示,o3 的實際表現徘徊在 10% 左右。還不錯,但肯定不是 OpenAI 最初所吹捧的頭條數字。
到底發生了什麼事?
我們來分析一下。OpenAI最初的得分很可能是在最佳條件下取得的--這些條件在現實世界中可能無法完全複製。Epoch 指出,他們的測試環境可能與 OpenAI 的略有不同,甚至他們使用的 FrontierMath 版本也較新。這並不是說 OpenAI 徹底誤導了任何人;他們最初的聲稱與內部測試一致,但這個差異突顯了一個更廣泛的問題。基準並不總是蘋果對蘋果的比較。而且讓我們面對現實吧,公司都有誘因要把自己最好的一面展現出來。
透明度的作用
這種情況帶出了一個重要的問題:AI 公司在分享結果時應該有多透明?雖然 OpenAI 並沒有徹底說謊,但他們的訊息確實讓人產生期望,而這些期望並沒有完全達成。這是一個微妙的平衡。公司想要展示他們的進步,但也需要誠實地說明這些數字的真正意義。隨著人工智能逐漸融入日常生活,消費者和研究人員都會要求更清楚的答案。
業界其他爭議
Benchmarking 的失誤並非 OpenAI 所獨有。人工智能領域的其他廠商也面臨類似的審查。早在 1 月份,Epoch 就因為在 o3 宣佈之前接受了 OpenAI 未公開的資金而身陷水深火熱之中。與此同時,Elon Musk 的 xAI 因為涉嫌調整他們的基準圖表,讓 Grok 3 看起來比實際表現更好而受到抨擊。即使是科技巨頭之一的 Meta,最近也承認根據一個未公開的模型來推廣分數。顯而易見,主宰頭條新聞的競賽正在升溫,而且並非每個人都能公平競爭。
展望未來
雖然這些爭議看似令人沮喪,但實際上卻是進步的跡象。隨著人工智慧領域的成熟,圍繞責任的討論也日趨成熟。消費者和研究人員正在推動提高透明度,這是一件好事。這能迫使公司在呈現成就時更加深思熟慮,也能確保使用者不會被不切實際的炒作所迷惑。歸根結柢,我們的目標不應該是玩弄數字遊戲,而應該是建立能真正推動該領域發展的模型。
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔
Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔
오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.
I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎
The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!
The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?





首頁






