選項
首頁
消息
蓋亞(Gaia

蓋亞(Gaia

2025-05-02
65

智力無處不在,但是準確地測量它就像試圖用裸手抓住雲。我們使用考試和基準(例如大學入學考試)來獲得一個大概的想法。每年,學生都會為這些測試做好準備,有時甚至得分完美的100%。但是,完美的分數是否意味著他們都具有相同的智力水平,或者他們已經達到了他們的心理潛力?當然不是。這些基準只是粗略的估計,而不是某人真正能力的精確指標。

在生成AI的世界中,MMLU(大量的多任務語言理解)等基準已成為通過各個學術領域的多項選擇問題評估模型的首選。儘管它們允許輕鬆比較,但他們並沒有真正捕捉到完整的智能功能。

以Claude 3.5十四行詩和GPT-4.5為例。他們可能在MMLU上得分類似,表明他們在標準桿上。但是,任何實際使用這些模型的人都知道他們的現實世界表現可能會大不相同。

在AI中衡量“智能”意味著什麼?

隨著最近推出的ARC-AGI基準測試,旨在測試一般推理和解決問題問題的模型,有關AI中“智能”的含義的新浪潮。並不是每個人都有機會潛入Arc-Agi,但是該行業正在對這種測試和其他新方法嗡嗡作響。每個基準都有其位置,而Arc-Agi是朝正確方向邁出的一步。

另一個令人興奮的發展是“人類的最後考試”,這是一個全面的基準,其中有3,000個同行評審的多步驟問題,涵蓋了不同的學科。將AI系統推向專家級別的推理是一項雄心勃勃的努力。早期的結果顯示出快速的進步,據報導,釋放一個月後,Openai的得分達到了26.6%。但是像其他基準一樣,它主要集中在真空中的知識和推理上,而不是對現實世界中AI應用至關重要的實用,使用工具的技能。

以某些頂級模型如何處理簡單的任務,例如計算“草莓”中的“ r” S或比較3.8與3.1111。這些錯誤,即使是兒童或基本的計算器也可以避免的錯誤,突出了基準成功與現實世界可靠性之間的差距。這提醒人們,智力不僅僅是針對測試。這是關於輕鬆瀏覽日常邏輯。

測量AI功能的新標準

測量AI功能的新標準

隨著AI模型的發展,傳統基準的局限性變得更加明顯。例如,GPT-4配備工具時,儘管在多項選擇測試上得分很高,但在GAIA基準測試中的更複雜,現實世界中的任務中僅得分約為15%。

隨著AI系統從研究實驗室到業務應用程序的過渡,基準性能與實際能力之間的這種差異越來越有問題。傳統基準測試模型能夠回憶信息的能力,但經常忽略智能的關鍵方面,例如收集數據,運行代碼,分析信息並在各個領域創建解決方案的能力。

輸入Gaia,這是一種標誌著AI評估的重大轉變的新基準。通過Meta-Fair,Meta-Genai,Huggingface和Autogpt的團隊之間的合作開發,蓋亞在三個難度級別上包含466個精心製作的問題。這些問題測試了現實世界中AI應用程序必不可少的各種技能,包括網絡瀏覽,多模式理解,代碼執行,文件處理和復雜的推理。

第1級問題通常需要大約5個步驟,一個工具才能解決人類。第2級問題需要5到10個步驟和多個工具,而第3級問題可能需要多達50個步驟和任何數量的工具。這種結構反映了實際業務問題的複雜性,解決方案通常涉及多種操作和工具。

通過專注於靈活性,而不僅僅是複雜性,AI模型在Gaia上的準確率達到了75%的精度,超過了Microsoft的Magnetic-1(38%)和Google的Langfun代理(49%)等行業領導者。這種成功源於使用專門模型的視聽理解和推理的混合,而Anthropic的十四行詩3.5作為主要模型。

AI評估的這種轉變反映了行業的更廣泛趨勢:我們正在從獨立的SaaS應用程序轉向可以管理多種工具和工作流程的AI代理。隨著企業越來越依賴AI來解決複雜的多步驟任務,諸如Gaia之類的基準比傳統的多項選擇測試提供了更相關的能力衡量標準。

AI評估的未來與孤立的知識測試有關。這是關於解決問題能力的全面評估。蓋亞(Gaia)為測量AI功能設定了一個新的基準,該基準與AI部署的現實世界挑戰和機遇更好。

Sri Ambati是H2O.AI的創始人兼首席執行官。

相關文章
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
評論 (0)
0/200
回到頂部
OR