AI基準:我們現在應該忽略它們嗎?
歡迎體驗TechCrunch的定期AI通訊!我們將短暫休息,但別擔心,您仍可在TechCrunch獲取所有AI報導,包括我的專欄、每日分析及突發新聞。想每天直接收到這些報導?請在此處訂閱我們的每日通訊。
本週,Elon Musk的AI新創公司xAI推出最新旗艦AI模型Grok 3,驅動公司Grok聊天機器人應用程式。他們使用20萬個GPU進行訓練,該模型在數學、程式設計等基準測試中,超越包括OpenAI在內的多個頂尖模型。
但讓我們來談談這些基準測試的真正意義。
在TC,我們報導這些基準數據,儘管我們並不總是對此感到興奮,因為這是AI產業展示模型進步的少數方式之一。問題在於,這些熱門AI基準測試往往聚焦於冷門內容,得分無法真正反映AI在人們實際關心的事務上的表現。
Wharton教授Ethan Mollick在X上表示,急需更好的測試及獨立團體來執行。他指出,AI公司通常自行報告基準結果,這讓人難以完全信任。
「公開基準測試既『平庸』又飽和,許多AI測試就像美食評論,基於主觀感受,」Mollick寫道。「如果AI對工作至關重要,我們需要更多。」
許多人在嘗試為AI設計新基準,但對於最佳方式尚未達成共識。一些人認為基準應聚焦於經濟影響才有用,另一些人則認為實際應用與實用性才是成功的真正衡量標準。
這場爭論可能永無止境。或許,如X用戶Roon建議,除非出現重大AI突破,否則我們應少關注新模型與基準。這樣或許對我們的理智更好,即使可能錯過一些AI熱潮。
如前所述,《本週AI》將暫停更新。感謝讀者們一路以來的支持,無論高低起伏。下次見。
新聞

圖片來源:Nathan Laine/Bloomberg / Getty Images OpenAI正試圖「解除審查」ChatGPT。Max撰文介紹他們如何改變AI開發方式,擁抱「知識自由」,即使涉及困難或爭議性話題。OpenAI前技術長Mira Murati創辦新公司Thinking Machines Lab,致力於開發工具以「讓AI滿足[人們的]獨特需求與目標」。
xAI發布Grok 3,並為iOS及網頁版Grok應用程式新增功能。
Meta將於明年春季舉辦首場專注於生成式AI的開發者大會,名為LlamaCon,以其Llama模型命名,定於4月29日舉行。
Paul撰文介紹OpenEuroLLM,由約20個組織合作打造,旨在為歐洲建構「透明AI」基礎模型,尊重歐盟所有語言的「語言與文化多樣性」。
本週研究論文

圖片來源:Jakub Porzycki/NurPhoto / Getty Images OpenAI研究人員提出新AI基準SWE-Lancer,測試AI程式設計能力,包含超過1400個自由軟體工程任務,從修復錯誤、添加功能到提出技術實現方案。OpenAI表示,表現最佳的模型Anthropic的Claude 3.5 Sonnet,在完整SWE-Lancer基準中僅得分40.3%,顯示AI仍有很長的路要走。他們未測試OpenAI的o3-mini或中國DeepSeek的R1等較新模型。
本週模型
中國AI公司Stepfun發布「開放」AI模型Step-Audio,能理解並生成中文、英文、日文的語音。用戶甚至可調整合成音頻的情感與方言,包括歌唱。
Stepfun是多家資金雄厚的中國AI新創之一,發布具寬鬆許可的模型。該公司2023年成立,最近完成一輪數億美元融資,投資者包括中國國有私募股權公司。
雜錦

圖片來源:Nous Research AI研究團體Nous Research宣稱發布首個結合推理與「直觀語言模型能力」的AI模型。他們的模型DeepHermes-3 Preview可在短與長「思維鏈」間切換,以平衡準確度與運算能力。在「推理」模式下,解決較難問題時耗時更長,並展示其思考過程。
據報導,Anthropic計畫不久後發布類似模型,OpenAI也表示這在其近期計畫中。
相關文章
前OpenAI工程師分享公司文化與快速成長的見解
三週前,Calvin French-Owen,一位為OpenAI關鍵產品做出貢獻的工程師,離開了公司。他最近發表了一篇引人入勝的部落格文章,詳細描述了他在OpenAI一年的經歷,包括開發Codex的緊張努力,這是一個與Cursor和Anthropic的Claude Code競爭的編碼代理。French-Owen澄清,他的離職並非因內部衝突,而是源於他希望回歸創業生活。他之前共同創辦了Segment
Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭
Google 於週一強化其 AI 策略,推出先進的 Gemini 2.5 模型供企業使用,並引入成本效益高的變體,以在價格與性能上競爭。Alphabet 旗下的公司將其旗艦 AI 模型—Gemini 2.5 Pro 與 Gemini 2.5 Flash—從測試階段提升至全面可用,展示其適用於關鍵業務應用的準備度。同時,Google 推出 Gemini 2.5 Flash-Lite,定位為高量任務中
Meta為AI人才提供高薪,否認1億美元簽約獎金
Meta以數百萬美元的薪酬套餐吸引AI研究人員加入其新超級智能實驗室。然而,一位受聘研究員及洩露的內部會議內容顯示,1億美元「簽約獎金」的說法不實。據The Verge週四報導,在一場洩露的公司全體會議中,Meta高管回應了關於OpenAI執行長Sam Altman聲稱Meta向頂尖研究員提供獎金的問題。Meta技術長Andrew Bosworth表示,只有極少數高級領導可能獲得如此高額報酬,但澄
評論 (58)
0/200
BillyLewis
2025-08-04 14:01:00
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
2025-08-01 10:48:18
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
2025-07-28 09:20:02
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
ChristopherThomas
2025-04-26 13:57:18
I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔
0
BrianWalker
2025-04-26 03:19:34
Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔
0
CharlesMartinez
2025-04-22 23:01:53
Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔
0
歡迎體驗TechCrunch的定期AI通訊!我們將短暫休息,但別擔心,您仍可在TechCrunch獲取所有AI報導,包括我的專欄、每日分析及突發新聞。想每天直接收到這些報導?請在此處訂閱我們的每日通訊。
本週,Elon Musk的AI新創公司xAI推出最新旗艦AI模型Grok 3,驅動公司Grok聊天機器人應用程式。他們使用20萬個GPU進行訓練,該模型在數學、程式設計等基準測試中,超越包括OpenAI在內的多個頂尖模型。
但讓我們來談談這些基準測試的真正意義。
在TC,我們報導這些基準數據,儘管我們並不總是對此感到興奮,因為這是AI產業展示模型進步的少數方式之一。問題在於,這些熱門AI基準測試往往聚焦於冷門內容,得分無法真正反映AI在人們實際關心的事務上的表現。
Wharton教授Ethan Mollick在X上表示,急需更好的測試及獨立團體來執行。他指出,AI公司通常自行報告基準結果,這讓人難以完全信任。
「公開基準測試既『平庸』又飽和,許多AI測試就像美食評論,基於主觀感受,」Mollick寫道。「如果AI對工作至關重要,我們需要更多。」
許多人在嘗試為AI設計新基準,但對於最佳方式尚未達成共識。一些人認為基準應聚焦於經濟影響才有用,另一些人則認為實際應用與實用性才是成功的真正衡量標準。
這場爭論可能永無止境。或許,如X用戶Roon建議,除非出現重大AI突破,否則我們應少關注新模型與基準。這樣或許對我們的理智更好,即使可能錯過一些AI熱潮。
如前所述,《本週AI》將暫停更新。感謝讀者們一路以來的支持,無論高低起伏。下次見。
新聞
OpenAI前技術長Mira Murati創辦新公司Thinking Machines Lab,致力於開發工具以「讓AI滿足[人們的]獨特需求與目標」。
xAI發布Grok 3,並為iOS及網頁版Grok應用程式新增功能。
Meta將於明年春季舉辦首場專注於生成式AI的開發者大會,名為LlamaCon,以其Llama模型命名,定於4月29日舉行。
Paul撰文介紹OpenEuroLLM,由約20個組織合作打造,旨在為歐洲建構「透明AI」基礎模型,尊重歐盟所有語言的「語言與文化多樣性」。
本週研究論文
OpenAI表示,表現最佳的模型Anthropic的Claude 3.5 Sonnet,在完整SWE-Lancer基準中僅得分40.3%,顯示AI仍有很長的路要走。他們未測試OpenAI的o3-mini或中國DeepSeek的R1等較新模型。
本週模型
中國AI公司Stepfun發布「開放」AI模型Step-Audio,能理解並生成中文、英文、日文的語音。用戶甚至可調整合成音頻的情感與方言,包括歌唱。
Stepfun是多家資金雄厚的中國AI新創之一,發布具寬鬆許可的模型。該公司2023年成立,最近完成一輪數億美元融資,投資者包括中國國有私募股權公司。
雜錦
他們的模型DeepHermes-3 Preview可在短與長「思維鏈」間切換,以平衡準確度與運算能力。在「推理」模式下,解決較難問題時耗時更長,並展示其思考過程。
據報導,Anthropic計畫不久後發布類似模型,OpenAI也表示這在其近期計畫中。




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.




I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔




Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔




Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔












