選項
首頁
新聞
AI基準:我們現在應該忽略它們嗎?

AI基準:我們現在應該忽略它們嗎?

2025-04-10
216

歡迎體驗TechCrunch的定期AI通訊!我們將短暫休息,但別擔心,您仍可在TechCrunch獲取所有AI報導,包括我的專欄、每日分析及突發新聞。想每天直接收到這些報導?請在此處訂閱我們的每日通訊。

本週,Elon Musk的AI新創公司xAI推出最新旗艦AI模型Grok 3,驅動公司Grok聊天機器人應用程式。他們使用20萬個GPU進行訓練,該模型在數學、程式設計等基準測試中,超越包括OpenAI在內的多個頂尖模型。

但讓我們來談談這些基準測試的真正意義。

在TC,我們報導這些基準數據,儘管我們並不總是對此感到興奮,因為這是AI產業展示模型進步的少數方式之一。問題在於,這些熱門AI基準測試往往聚焦於冷門內容,得分無法真正反映AI在人們實際關心的事務上的表現。

Wharton教授Ethan Mollick在X上表示,急需更好的測試及獨立團體來執行。他指出,AI公司通常自行報告基準結果,這讓人難以完全信任。

「公開基準測試既『平庸』又飽和,許多AI測試就像美食評論,基於主觀感受,」Mollick寫道。「如果AI對工作至關重要,我們需要更多。」

許多人在嘗試為AI設計新基準,但對於最佳方式尚未達成共識。一些人認為基準應聚焦於經濟影響才有用,另一些人則認為實際應用與實用性才是成功的真正衡量標準。

這場爭論可能永無止境。或許,如X用戶Roon建議,除非出現重大AI突破,否則我們應少關注新模型與基準。這樣或許對我們的理智更好,即使可能錯過一些AI熱潮。

如前所述,《本週AI》將暫停更新。感謝讀者們一路以來的支持,無論高低起伏。下次見。

新聞

圖片來源:Nathan Laine/Bloomberg / Getty Images
OpenAI正試圖「解除審查」ChatGPT。Max撰文介紹他們如何改變AI開發方式,擁抱「知識自由」,即使涉及困難或爭議性話題。

OpenAI前技術長Mira Murati創辦新公司Thinking Machines Lab,致力於開發工具以「讓AI滿足[人們的]獨特需求與目標」。

xAI發布Grok 3,並為iOS及網頁版Grok應用程式新增功能。

Meta將於明年春季舉辦首場專注於生成式AI的開發者大會,名為LlamaCon,以其Llama模型命名,定於4月29日舉行。

Paul撰文介紹OpenEuroLLM,由約20個組織合作打造,旨在為歐洲建構「透明AI」基礎模型,尊重歐盟所有語言的「語言與文化多樣性」。

本週研究論文

OpenAI ChatGPT網站顯示於筆電螢幕的示意圖。

圖片來源:Jakub Porzycki/NurPhoto / Getty Images
OpenAI研究人員提出新AI基準SWE-Lancer,測試AI程式設計能力,包含超過1400個自由軟體工程任務,從修復錯誤、添加功能到提出技術實現方案。

OpenAI表示,表現最佳的模型Anthropic的Claude 3.5 Sonnet,在完整SWE-Lancer基準中僅得分40.3%,顯示AI仍有很長的路要走。他們未測試OpenAI的o3-mini或中國DeepSeek的R1等較新模型。

本週模型

中國AI公司Stepfun發布「開放」AI模型Step-Audio,能理解並生成中文、英文、日文的語音。用戶甚至可調整合成音頻的情感與方言,包括歌唱。

Stepfun是多家資金雄厚的中國AI新創之一,發布具寬鬆許可的模型。該公司2023年成立,最近完成一輪數億美元融資,投資者包括中國國有私募股權公司。

雜錦

Nous Research DeepHermes

圖片來源:Nous Research
AI研究團體Nous Research宣稱發布首個結合推理與「直觀語言模型能力」的AI模型。

他們的模型DeepHermes-3 Preview可在短與長「思維鏈」間切換,以平衡準確度與運算能力。在「推理」模式下,解決較難問題時耗時更長,並展示其思考過程。

據報導,Anthropic計畫不久後發布類似模型,OpenAI也表示這在其近期計畫中。

相關文章
非營利組織利用 AI 代理提升慈善募款工作 非營利組織利用 AI 代理提升慈善募款工作 當各大科技公司將人工智慧「代理」推廣為企業生產力的助推器時,一家非營利組織正在展示人工智慧在社會公益方面的潛力。由 Open Philanthropy 支持的慈善研究組織 Sage Future 最近進行了一項創新實驗,展示 AI 模型如何協同進行慈善募款。該非營利組織將 OpenAI 的 GPT-4o 與 o1,以及 Anthropic 的 Claude 3.6 與 3.7 Sonnet 等
頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力 頂尖 AI 實驗室警告人類正在失去理解 AI 系統的能力 來自 OpenAI、Google DeepMind、Anthropic 和 Meta 的研究人員,史無前例地展現團結,擱置競爭分歧,就負責任的 AI 開發發出集體警告。來自這些典型競爭組織的 40 多位頂尖科學家共同撰寫了一份突破性的研究論文,強調確保 AI 決策過程透明化的窗口正在快速關閉。此次合作的重點在於現代人工智能系統的一項關鍵發展 - 在產生最終輸出之前,以人類可讀的語言闡明推理過程的新
ChatGPT 新增 Google Drive 和 Dropbox 整合功能以存取檔案 ChatGPT 新增 Google Drive 和 Dropbox 整合功能以存取檔案 ChatGPT 利用新的企業功能增強生產力OpenAI 發表了兩項強大的新功能,將 ChatGPT 轉型為全面的企業生產力工具:自動化會議記錄和無縫雲儲存整合。革命性的錄音功能新推出的 「記錄模式 」可自動轉錄和分析以下內容:重要的商務會議有創意的腦力激盪會議 個人思考過程此優質功能目前為 ChatGPT 團隊訂閱者專屬 (每位使用者每月 $25),可提供:精確、有時
評論 (61)
0/200
JonathanDavis
JonathanDavis 2025-08-19 14:26:53

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 2025-08-19 13:00:59

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 2025-08-12 03:00:59

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 2025-08-04 14:01:00

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 2025-08-01 10:48:18

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 2025-07-28 09:20:02

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

回到頂部
OR