選項
首頁 消息 新的AGI測試證明了具有挑戰性,大多數AI模型

新的AGI測試證明了具有挑戰性,大多數AI模型

發布日期 發布日期 2025年04月10日
作者 作者 WillPerez
視圖 視圖 37

由著名的AI研究員FrançoisChollet共同創立的ARC獎基金會最近在博客文章中推出了一個名為Arc-Agi-2的新基準。該測試旨在突破AI通用智能的界限,到目前為止,這對於大多數AI模型來說都是很難破解的堅果。

根據ARC獎的排行榜,即使是OpenAI的O1-Pro和DeepSeek的R1,也只能管理1%至1.3%的分數。同時,諸如GPT-4.5,Claude 3.7十四行詩和Gemini 2.0 Flash之類的強大非爭議模型正在徘徊在1%的標記附近。

ARC-AGI測試挑戰具有類似拼圖的問題的AI系統,要求它們在不同顏色正方形的網格中識別視覺模式,並生成正確的“答案”網格。這些問題旨在測試AI適應新的,看不見的挑戰的能力。

為了建立人類基線,ARC獎基金會有400多人參加了ARC-AGI-2測試。平均而言,這些人類的“面板”取得了60%的成功率,顯著優於AI模型。

來自ARC-AGI-22的樣本問題。圖片信用:ARC獎
FrançoisChollet提出X聲稱Arc-Agi-2是對AI模型的真實智能的更準確度量,與其前身Arc-Agi-1相比。 ARC獎基金會的測試旨在評估AI是否可以有效地學習其培訓數據以外的新技能。

Chollet強調,ARC-AGI-2阻止AI模型依靠“蠻力”計算能力來解決問題,這是他在第一次測試中所承認的一個缺陷。為了解決這個問題,ARC-AGI-2引入了一個效率指標,需要模型即時解釋模式而不是依靠記憶。

在博客文章中,ARC獎基金會聯合創始人Greg Kamradt強調,情報不僅僅是解決問題或達到高分。他寫道:“獲得和部署這些功能的效率是至關重要的,定義的組成部分。” “提出的核心問題不僅是,'AI可以獲得解決任務的技能嗎?'而且,“以什麼效率或成本? ”

直到2024年12月,Openai的高級推理模型O3超過了所有其他AI模型並匹配人類的表現,arc-agi-1一直保持不敗大約五年。但是,O3在Arc-Agi-1上的成功付出了很大的成本。 OpenAI的O3型號O3(Low)的版本在ARC-AGI-1上得分令人印象深刻75.7%,在ARC-AGI-2上僅管理了4%的微小,每項任務的計算能力為200美元。

ARC-AGI-1和ARC-AGI-2的Frontier AI模型性能的比較。圖像學分:ARC獎
ARC-AGI-2的引入是在技術行業中許多人呼籲建立新的,不飽和的基準來衡量AI進度的時候。擁抱面孔的聯合創始人托馬斯·沃爾夫(Thomas Wolf)最近告訴TechCrunch,AI行業缺乏足夠的測試來衡量人工通用情報(例如創造力)的關鍵特徵。

除了新的基準測試基金會外,ARC獎基金會宣布了ARC獎2025競賽,挑戰開發人員在ARC-AGI-2測試中獲得85%的準確性,而每項任務僅花費0.42美元。

相關文章
Openai स्ट्राइक्स बैक: एआई प्रतियोगी को कम करने के लिए कथित प्रयासों के लिए एलोन मस्क ने कहा Openai स्ट्राइक्स बैक: एआई प्रतियोगी को कम करने के लिए कथित प्रयासों के लिए एलोन मस्क ने कहा Openai ने अपने सह-संस्थापक, एलोन मस्क और उनकी प्रतिस्पर्धी AI कंपनी, XAI के खिलाफ एक भयंकर कानूनी पलटवार लॉन्च किया है। अपने चल रहे झगड़े के एक नाटकीय वृद्धि में, ओपनई ने कस्तूरी पर आरोप लगाया कि वह उस कंपनी को कम करने में मदद करने के लिए एक "अथक" और "दुर्भावनापूर्ण" अभियान को छेड़ने का आरोप लगाता है। अदालत के अनुसार डी
रिटर्न में तेजी लाने का कानून समझाया गया: एजीआई विकास का मार्ग रिटर्न में तेजी लाने का कानून समझाया गया: एजीआई विकास का मार्ग हाल ही में एक साक्षात्कार में, एलोन मस्क ने आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) के आगमन के लिए समयरेखा पर अपने आशावादी दृष्टिकोण को साझा किया, यह बताते हुए कि यह *"3 से 6 साल" *के रूप में जल्द ही हो सकता है। इसी तरह, Google के दीपमाइंड के सीईओ, डेमिस हसबिस ने वॉल स्ट्रीट जर्नल के फ्यूचर ऑफ एवरीथिंग फेस्टी में व्यक्त किया
एरिक श्मिट ने एजीआई मैनहट्टन प्रोजेक्ट का विरोध किया एरिक श्मिट ने एजीआई मैनहट्टन प्रोजेक्ट का विरोध किया बुधवार को जारी एक पॉलिसी पेपर में, Google के पूर्व सीईओ एरिक श्मिट ने स्केल एआई के सीईओ अलेक्जेंड्र वांग और एआई सुरक्षा निदेशक डैन हेंड्रिक के लिए सेंटर के साथ, अमेरिका के खिलाफ सलाह दी कि "अलौकिक" के साथ एआई सिस्टम विकसित करने के लिए एक मैनहट्टन प्रोजेक्ट-स्टाइल पहल शुरू की।
評論 (35)
0/200
StephenMartinez
StephenMartinez 2025年04月10日 15:27:48

The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!

StevenSanchez
StevenSanchez 2025年04月10日 15:27:48

Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!

AndrewHernández
AndrewHernández 2025年04月10日 15:27:48

Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!

BrianGarcia
BrianGarcia 2025年04月10日 15:27:48

O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!

GeorgeEvans
GeorgeEvans 2025年04月10日 15:27:48

¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!

StevenLopez
StevenLopez 2025年04月11日 00:18:46

This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?

回到頂部
OR