選項
首頁
新聞
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準

OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準

2025-06-07
127

OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準

為什麼人工智慧的基準差異很重要?

談到人工智能,數字往往能說明一切--有時候,這些數字加起來並不完全吻合。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人瞠目:據報,o3 可以處理超過 25% 難度極高的 FrontierMath 問題。在當時的情況下,競爭對手只能處理低個位數的問題。但快進到最近的發展,Epoch AI(一個受人尊敬的研究機構)對這種說法提出了質疑。他們的研究結果顯示,o3 的實際表現徘徊在 10% 左右。還不錯,但肯定不是 OpenAI 最初所吹捧的頭條數字。

到底發生了什麼事?

我們來分析一下。OpenAI最初的得分很可能是在最佳條件下取得的--這些條件在現實世界中可能無法完全複製。Epoch 指出,他們的測試環境可能與 OpenAI 的略有不同,甚至他們使用的 FrontierMath 版本也較新。這並不是說 OpenAI 徹底誤導了任何人;他們最初的聲稱與內部測試一致,但這個差異突顯了一個更廣泛的問題。基準並不總是蘋果對蘋果的比較。而且讓我們面對現實吧,公司都有誘因要把自己最好的一面展現出來。

透明度的作用

這種情況帶出了一個重要的問題:AI 公司在分享結果時應該有多透明?雖然 OpenAI 並沒有徹底說謊,但他們的訊息確實讓人產生期望,而這些期望並沒有完全達成。這是一個微妙的平衡。公司想要展示他們的進步,但也需要誠實地說明這些數字的真正意義。隨著人工智能逐漸融入日常生活,消費者和研究人員都會要求更清楚的答案。

業界其他爭議

Benchmarking 的失誤並非 OpenAI 所獨有。人工智能領域的其他廠商也面臨類似的審查。早在 1 月份,Epoch 就因為在 o3 宣佈之前接受了 OpenAI 未公開的資金而身陷水深火熱之中。與此同時,Elon Musk 的 xAI 因為涉嫌調整他們的基準圖表,讓 Grok 3 看起來比實際表現更好而受到抨擊。即使是科技巨頭之一的 Meta,最近也承認根據一個未公開的模型來推廣分數。顯而易見,主宰頭條新聞的競賽正在升溫,而且並非每個人都能公平競爭。

展望未來

雖然這些爭議看似令人沮喪,但實際上卻是進步的跡象。隨著人工智慧領域的成熟,圍繞責任的討論也日趨成熟。消費者和研究人員正在推動提高透明度,這是一件好事。這能迫使公司在呈現成就時更加深思熟慮,也能確保使用者不會被不切實際的炒作所迷惑。歸根結柢,我們的目標不應該是玩弄數字遊戲,而應該是建立能真正推動該領域發展的模型。

相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係 薩提亞·納德拉準備利用與OpenAI的新合作關係 週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
漫畫創作 AI角色建立工具:為漫畫主角生成詳細的背景故事及視覺參考資料
AI角色建立工具:為漫畫主角生成詳細的背景故事及視覺參考資料

2026年最新最佳AI角色建立工具:發現那些備受好評的工具,它們能夠幫助你為漫畫角色生成詳細的背景故事和視覺素材。我們精心整理的這份每週更新的列表會根據實際測試結果,對比免費與付費選項的優劣。找到這些強大且能改變創作流程的工具,幫助你塑造引人入勝的角色,提升創作效率。立即訪問XIX.AI檢視排名,找到最適合你的故事創作助手吧。

10 個工具
xix.ai
健康與養生 AI 孕期輔助系統:生成安全且按孕期分階段的運動與營養計畫
AI 孕期輔助系統:生成安全且按孕期分階段的運動與營養計畫

探索 2026 年最佳 AI 孕期輔助工具,為您量身打造安全且針對各孕期的運動與營養計畫。獲取精選的高評分推薦,包含免費與付費方案的比較,以及實用經驗分享。透過 XIX.AI 的專家指南,開啟您最健康的孕期旅程。立即探索。

10 個工具
xix.ai
寫作 最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文
最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文

立即前往 XIX.AI,探索 2026 年最頂尖的免費且難以被察覺的 AI 寫手。我們精心篩選的頂級清單,能協助您將生硬的草稿轉化為自然流暢、宛如人類撰寫的文字。透過實際測試與每週更新的排行榜,比較免費與付費選項的優劣。立即解鎖您的 AI 寫作優勢。

10 個工具
xix.ai
圖像編輯 用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計
用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計

2026最新推薦:探索最適合用於短劇故事板製作的AI藝術生成工具。我們精心挑選了眾多頂級工具,幫助您創作出引人入勝的幻想角色和都市浪漫角色。您可以對比免費與付費選項,檢視實際測試結果,從而找到最適合自己的創意工具。XIX.AI還會每週更新排名並提供專家分析,讓您立即開始將故事視覺化呈現吧!

10 個工具
xix.ai
寫作 最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告
最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告

在XIX.AI上,發現2026年最適合用於廣播和播客製作的AI指令碼工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您快速製作出引人入勝的音訊廣告。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項之間的差異。今天就釋放您的創造力吧!

10 個工具
xix.ai
商業 最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險
最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險

立即在 XIX.AI 探索 2026 年最佳 AI 合約審查軟體。我們精心挑選的頂級清單收錄了多款強大工具,能即時偵測法律漏洞與合規風險。透過實際測試與每週更新的排行榜,比較免費與付費方案的差異。為您找到能徹底改變遊戲規則的解決方案,實現安全且高效的合約分析。立即探索這份權威指南。

10 個工具
xix.ai
評論 (6)
0/500
JackPerez
JackPerez 2026-02-03 06:00:45

Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔

BruceRoberts
BruceRoberts 2025-12-16 18:30:42

Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔

FrankSmith
FrankSmith 2025-09-10 14:30:33

오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.

LiamWalker
LiamWalker 2025-08-12 14:50:10

I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎

FrankLewis
FrankLewis 2025-08-07 10:41:14

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter
NicholasCarter 2025-07-29 20:25:16

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

OR