蓋亞（Gaia

首頁

新聞

蓋亞（Gaia

2025-05-02

MatthewCarter

# nlp

智能無處不在，但要精確衡量卻像徒手捕捉雲朵。我們使用考試和基準測試，例如大學入學考試，來粗略估計。每年，學生們為這些考試刻苦準備，有些甚至獲得滿分100%。但滿分是否意味著他們擁有相同的智能水平，或已達到心智潛能的頂峰？當然不是。這些基準只是粗略估計，並非某人真實能力的精確指標。

在生成式AI的世界中，MMLU（大規模多任務語言理解）等基準一直是通過多選題評估模型的首選，涵蓋多個學術領域。雖然它們便於比較，但無法完全捕捉智能能力的全部範圍。

以Claude 3.5 Sonnet和GPT-4.5為例，它們在MMLU上的得分可能相近，顯示它們不相上下。但實際使用這些模型的人都知道，它們在現實世界的表現可能大不相同。

衡量AI的「智能」意味著什麼？

隨著ARC-AGI基準的近期推出，旨在測試模型的通用推理和創意問題解決能力，關於AI「智能」測量的討論掀起新熱潮。雖然還不是每個人都體驗過ARC-AGI，但業界對此及其他新測試方法的討論熱烈。每個基準都有其價值，ARC-AGI是朝正確方向邁出的一步。

另一個令人興奮的發展是「人類的最後考試」，這是一個包含3,000道經過同行評審的多步驟問題的綜合基準，涵蓋不同學科。這是推動AI系統達到專家級推理的雄心勃勃努力。早期結果顯示進展迅速，據報導OpenAI在發布一個月後達到26.6%的得分。但與其他基準一樣，它主要聚焦於知識和孤立環境中的推理，而非對現實世界AI應用至關重要的實用工具使用技能。

例如，一些頂尖模型在簡單任務上表現不佳，例如數「strawberry」中的「r」或比較3.8與3.1111。這些錯誤，即便是孩子或基本計算器也能避免，凸顯了基準成功與現實世界可靠性的差距。這提醒我們，智能不僅僅是考試得高分，而是輕鬆應對日常邏輯。

衡量AI能力的新標準

隨著AI模型的發展，傳統基準的局限性日益顯現。例如，GPT-4在配備工具時，於GAIA基準的更複雜現實世界任務中僅得分約15%，儘管其在多選題測試中得分很高。

基準表現與實際能力之間的差距在AI系統從研究實驗室轉向商業應用時愈發成問題。傳統基準測試模型的知識回憶能力，但常忽略智能的關鍵面向，例如收集數據、執行程式碼、分析資訊及跨領域創造解決方案的能力。

GAIA的出現標誌著AI評估的重大轉變。該基準由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT團隊合作開發，包含466道精心設計的問題，分為三個難度等級。這些問題測試現實世界AI應用所需的多種技能，包括網頁瀏覽、多模態理解、程式碼執行、檔案處理和複雜推理。

第一級問題通常需要人類約5個步驟和一種工具來解決。第二級問題需要5至10個步驟和多種工具，而第三級問題可能需要多達50個步驟和任意數量的工具。這種結構反映了實際商業問題的複雜性，解決方案通常涉及多個動作和工具。

通過專注於靈活性而非僅僅複雜性，一個AI模型在GAIA上達到了75%的準確率，超越了業界領先者如Microsoft的Magnetic-1（38%）和Google的Langfun Agent（49%）。這一成功來自於使用專門的視聽理解和推理模型組合，以Anthropic的Sonnet 3.5為主要模型。

AI評估的轉變反映了業界的更廣泛趨勢：我們正從獨立的SaaS應用轉向能夠管理多種工具和工作流程的AI代理。隨著企業越來越依賴AI處理複雜的多步驟任務，GAIA等基準提供了比傳統多選題測試更相關的能力衡量標準。

AI評估的未來不再是孤立的知識測試，而是對問題解決能力的全面評估。GAIA為衡量AI能力設立了新標準——一個更符合AI部署現實挑戰與機遇的基準。

Sri Ambati 是 H2O.ai 的創始人兼首席執行官。

TensorZero 獲得 730 萬美元種子基金以簡化企業 LLM 開發 TensorZero 是一家新興的人工智能應用程式開放原始碼基礎設施供應商，已獲得 730 萬美元的種子資金，由 FirstMark Capital 領投，Bessemer Venture Partners、Bedrock、DRW、Coalition 及眾多業界天使投資人參與。TensorZero 的 GitHub 資源庫在近幾個月內獲得全球「第一熱門」的地位，同時星級數從 3,000 個增加

Replit 執行長預測軟體未來：「代理商一路下滑協同式 AI 開發平台能否讓企業擺脫昂貴的 SaaS 訂閱？Replit 有遠見的首席執行官 Amjad Masad 認為這種轉變已經在進行中，他描述了一個「代理以遞歸方式處理一切」的生態系統。在 VB Transform 的主題演講中，Masad 示範了 Replit 的 AI 代理如何讓非技術使用者在短短 15 分鐘內，開發出功能完整的投票應用程式 - 從簡單的文字提示，自動產生資料庫、驗證系

OpenAI 將 ChatGPT Pro 升級至 o3，提升每月 200 美元訂閱的價值本週，包括 Microsoft、Google 和 Anthropic 在內的科技巨擘都發表了重要的 AI 發展。OpenAI 以自己的突破性更新結束了這一連串的公告 - 除了高調地以 65 億美元收購 Jony Ive 的設計公司，推出代號為「io」的雄心勃勃的硬體計畫之外。該公司已大幅強化 ChatGPT 內的 Operator 自主網頁導覽系統，從先前的 GPT-4o 架構過渡到先進的 o3

評論 (2)

0/200

提交

BillyAdams

2025-08-26 16:25:46

This GAIA benchmark sounds intriguing! Makes me wonder if we’re finally getting closer to measuring true intelligence or just chasing fancier numbers. 🤔 What’s next, AI acing philosophy exams?

GaryThomas

2025-08-08 12:01:29

This GAIA benchmark sounds intriguing! 🤔 It’s like trying to measure a rainbow with a ruler—cool concept, but can it really capture true intelligence? I wonder how it compares to ARC-AGI in practical applications.

頭號新聞

2025頂級AI影片生成器：Pika Labs與其他對比 Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 AI配音：真實聲音創作終極指南 Cambium的AI將垃圾木頭變成木材 AI Builder和Power Automate革新文件摘要 Openai增強了AI語音助手以進行更好的聊天如何確保您的數據值得信賴AI集成 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查對美國數據中心的調整可以解鎖76 GW的新電源容量 Google利用AI暫停了超過3900萬的廣告帳戶，以涉嫌欺詐

精選