OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準

首頁

新聞

2025-06-07

PatrickGonzález

# openai # o3

OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準

為什麼人工智慧的基準差異很重要？

談到人工智能，數字往往能說明一切--有時候，這些數字加起來並不完全吻合。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人瞠目：據報，o3 可以處理超過 25% 難度極高的 FrontierMath 問題。在當時的情況下，競爭對手只能處理低個位數的問題。但快進到最近的發展，Epoch AI（一個受人尊敬的研究機構）對這種說法提出了質疑。他們的研究結果顯示，o3 的實際表現徘徊在 10% 左右。還不錯，但肯定不是 OpenAI 最初所吹捧的頭條數字。

到底發生了什麼事？

我們來分析一下。OpenAI最初的得分很可能是在最佳條件下取得的--這些條件在現實世界中可能無法完全複製。Epoch 指出，他們的測試環境可能與 OpenAI 的略有不同，甚至他們使用的 FrontierMath 版本也較新。這並不是說 OpenAI 徹底誤導了任何人；他們最初的聲稱與內部測試一致，但這個差異突顯了一個更廣泛的問題。基準並不總是蘋果對蘋果的比較。而且讓我們面對現實吧，公司都有誘因要把自己最好的一面展現出來。

透明度的作用

這種情況帶出了一個重要的問題：AI 公司在分享結果時應該有多透明？雖然 OpenAI 並沒有徹底說謊，但他們的訊息確實讓人產生期望，而這些期望並沒有完全達成。這是一個微妙的平衡。公司想要展示他們的進步，但也需要誠實地說明這些數字的真正意義。隨著人工智能逐漸融入日常生活，消費者和研究人員都會要求更清楚的答案。

業界其他爭議

Benchmarking 的失誤並非 OpenAI 所獨有。人工智能領域的其他廠商也面臨類似的審查。早在 1 月份，Epoch 就因為在 o3 宣佈之前接受了 OpenAI 未公開的資金而身陷水深火熱之中。與此同時，Elon Musk 的 xAI 因為涉嫌調整他們的基準圖表，讓 Grok 3 看起來比實際表現更好而受到抨擊。即使是科技巨頭之一的 Meta，最近也承認根據一個未公開的模型來推廣分數。顯而易見，主宰頭條新聞的競賽正在升溫，而且並非每個人都能公平競爭。

展望未來

雖然這些爭議看似令人沮喪，但實際上卻是進步的跡象。隨著人工智慧領域的成熟，圍繞責任的討論也日趨成熟。消費者和研究人員正在推動提高透明度，這是一件好事。這能迫使公司在呈現成就時更加深思熟慮，也能確保使用者不會被不切實際的炒作所迷惑。歸根結柢，我們的目標不應該是玩弄數字遊戲，而應該是建立能真正推動該領域發展的模型。

非營利組織利用 AI 代理提升慈善募款工作當各大科技公司將人工智慧「代理」推廣為企業生產力的助推器時，一家非營利組織正在展示人工智慧在社會公益方面的潛力。由 Open Philanthropy 支持的慈善研究組織 Sage Future 最近進行了一項創新實驗，展示 AI 模型如何協同進行慈善募款。該非營利組織將 OpenAI 的 GPT-4o 與 o1，以及 Anthropic 的 Claude 3.6 與 3.7 Sonnet 等

頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員，史無前例地展現團結，擱置競爭分歧，就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文，強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前，以人類可讀的語言闡明推理過程的新

ChatGPT 新增 Google Drive 和 Dropbox 整合功能以存取檔案 ChatGPT 利用新的企業功能增強生產力OpenAI 發表了兩項強大的新功能，將 ChatGPT 轉型為全面的企業生產力工具：自動化會議記錄和無縫雲儲存整合。革命性的錄音功能新推出的「記錄模式」可自動轉錄和分析以下內容：重要的商務會議有創意的腦力激盪會議個人思考過程此優質功能目前為 ChatGPT 團隊訂閱者專屬 (每位使用者每月 $25)，可提供：精確、有時

評論 (4)

0/200

提交

FrankSmith

2025-09-10 14:30:33

오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.

LiamWalker

2025-08-12 14:50:10

I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎

FrankLewis

2025-08-07 10:41:14

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter

2025-07-29 20:25:16

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

頭號新聞

Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 2025頂級AI影片生成器：Pika Labs與其他對比 AI配音：真實聲音創作終極指南 Cambium的AI將垃圾木頭變成木材 Openai增強了AI語音助手以進行更好的聊天如何確保您的數據值得信賴AI集成 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查對美國數據中心的調整可以解鎖76 GW的新電源容量 Google利用AI暫停了超過3900萬的廣告帳戶，以涉嫌欺詐 AI語音克隆：掌握語音轉換的終極指南

精選