新的AGI測試證明了具有挑戰性,大多數AI模型
Arc獎金基金會,由知名AI研究員François Chollet共同創辦,最近在一篇博客文章中公布了一個名為ARC-AGI-2的新基準測試。此測試旨在推動AI通用智能的界限,迄今為止,對大多數AI模型來說,這是一個難以破解的挑戰。
根據Arc獎金排行榜,即使是像OpenAI的o1-pro和DeepSeek的R1這樣的高級「推理」AI模型,也僅能獲得1%至1.3%的分數。與此同時,強大的非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash,也僅在1%左右徘徊。
ARC-AGI測試以類似謎題的問題挑戰AI系統,要求它們在不同顏色的方格網中識別視覺模式,並生成正確的「答案」網格。這些問題旨在測試AI適應全新、未見過的挑戰的能力。
為了建立人類基準,Arc獎金基金會讓超過400人參加了ARC-AGI-2測試。平均而言,這些「測試小組」的人類達到了60%的成功率,顯著超越了AI模型。

來自ARC-AGI-2的樣本問題。圖片來源:Arc Prize François Chollet在X上表示,與前一代ARC-AGI-1相比,ARC-AGI-2是衡量AI模型真實智能的更精確指標。Arc獎金基金會的測試旨在評估AI是否能高效學習超出其訓練數據的新技能。Chollet強調,ARC-AGI-2防止AI模型依賴「暴力計算」來解決問題,這是他承認的第一個測試中的缺陷。為了解決這一問題,ARC-AGI-2引入了效率指標,並要求模型即時解讀模式,而不是依賴記憶。
在博客文章中,Arc獎金基金會共同創辦人Greg Kamradt強調,智能不僅僅是解決問題或獲得高分。他寫道:「這些能力的獲取和部署效率是一個關鍵的定義性組成部分。」「核心問題不僅是『AI能否獲得解決任務的技能?』,還有『以何種效率或成本?』」
ARC-AGI-1在約五年內未被打破,直到2024年12月,OpenAI的高級推理模型o3超越了所有其他AI模型,並達到了人類的表現。然而,o3在ARC-AGI-1上的成功付出了顯著的代價。OpenAI的o3模型版本o3 (low),在ARC-AGI-1上獲得了令人印象深刻的75.7%分數,但在ARC-AGI-2上僅獲得4%,每項任務使用了價值200美元的計算能力。

前沿AI模型在ARC-AGI-1和ARC-AGI-2上的性能比較。圖片來源:Arc Prize ARC-AGI-2的推出正值科技行業許多人呼籲新的、未飽和的基準來衡量AI進展之際。Hugging Face的共同創辦人Thomas Wolf最近對TechCrunch表示,AI行業缺乏足夠的測試來衡量人工通用智能的關鍵特徵,如創造力。隨著新基準的推出,Arc獎金基金會宣布了2025年Arc獎金競賽,挑戰開發者在ARC-AGI-2測試中實現85%的準確率,同時每項任務僅花費0.42美元。
相關文章
OpenAI重申非營利根基於重大企業改造
OpenAI在進行重大企業重組時,堅定不移地秉持其非營利使命,平衡成長與對倫理AI發展的承諾。執行長Sam Altman概述了公司的願景,強調雖然財務策略正在演變,OpenAI對推進人工通用智能(AGI)以造福全球的奉獻依然堅定不移。Altman在公開聲明中指出:「OpenAI的運作方式與傳統公司不同,且將永遠如此。」這為一家在資助變革性技術與堅持道德原則之間尋求平衡的公司定下了基調。回顧Open
AI領導者討論AGI:基於現實
在最近一次與舊金山商業領袖的晚餐上,我提出了一個似乎讓現場冷場的問題:今天的人工智能是否能達到或超越人類的智能?這是一個比你預期的更能引發爭議的話題。到了2025年,科技CEO們對像ChatGPT和Gemini背後的大型語言模型(LLM)充滿了樂觀情緒。他們相信這些模型很快就能達到人類級別甚至超人類的智能。以Anthropic的Dario Amodei為例,
Openai反擊:起訴Elon Musk涉嫌努力破壞AI競爭對手
Openai對其聯合創始人Elon Musk及其競爭的AI公司Xai發起了激烈的法律反擊。在他們正在進行的爭執的戲劇性升級中,Openai指責馬斯克發動了一場“無情”和“惡意”運動,破壞了他幫助創辦的公司。根據法院D
評論 (36)
0/200
WillieRoberts
2025-07-29 20:25:16
This ARC-AGI-2 test sounds brutal! Most AI models are getting crushed, which makes me wonder if we’re hyping AI too much. 🤔 Cool to see Chollet shaking things up though!
0
GeorgeMiller
2025-04-14 16:35:00
Este test ARC-AGI-2 es realmente difícil. Lo probé con varios modelos de IA y todos se quedaron atascados. Es genial ver cómo desafía los límites, pero es frustrante cuando ni siquiera los modelos top pueden resolverlo. Quizás sea hora de un nuevo enfoque en el desarrollo de IA. ¡Sigan empujando los límites, pero no olviden celebrar las pequeñas victorias también!
0
JonathanKing
2025-04-14 09:46:37
¡Este nuevo test de AGI es realmente difícil! Lo intenté y ni siquiera los modelos de IA más inteligentes que conozco pudieron resolverlo. Es como un rompecabezas que te mantiene despierto toda la noche. Felicitaciones a François Chollet por desafiar los límites, pero es frustrante cuando hasta los mejores fallan. Tal vez la próxima vez, ¿verdad?
0
DonaldGonzález
2025-04-14 03:05:45
ARC-AGI-2のテストは本当に難しいですね!いくつかのAIモデルで試してみましたが、どれも解けませんでした。限界を押し広げるのは素晴らしいですが、トップモデルが解けないとちょっとイライラします。AI開発に新しいアプローチが必要かもしれませんね。小さな勝利も祝いましょう!
0
HaroldMoore
2025-04-13 23:54:39
この新しいAGIテスト、めっちゃ難しいです!試してみたけど、知っている中で一番賢いAIモデルでも解けませんでした。夜更かししてしまうパズルのようです。フランソワ・ショレに敬意を表しますが、最高のAIが失敗するのはもどかしいですね。次こそは、ね?
0
GregoryWilson
2025-04-13 23:36:48
新しいAGIテストが難しいんだって?ほとんどのAIモデルが苦戦してるらしいね。それはすごいけど、ちょっと怖いよね。本当のAIまでどれだけ遠いのか気になるな。とにかく、限界を押し広げてほしいな。誰かが解くまでどれくらいかかるか見てみよう!
0
Arc獎金基金會,由知名AI研究員François Chollet共同創辦,最近在一篇博客文章中公布了一個名為ARC-AGI-2的新基準測試。此測試旨在推動AI通用智能的界限,迄今為止,對大多數AI模型來說,這是一個難以破解的挑戰。
根據Arc獎金排行榜,即使是像OpenAI的o1-pro和DeepSeek的R1這樣的高級「推理」AI模型,也僅能獲得1%至1.3%的分數。與此同時,強大的非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash,也僅在1%左右徘徊。
ARC-AGI測試以類似謎題的問題挑戰AI系統,要求它們在不同顏色的方格網中識別視覺模式,並生成正確的「答案」網格。這些問題旨在測試AI適應全新、未見過的挑戰的能力。
為了建立人類基準,Arc獎金基金會讓超過400人參加了ARC-AGI-2測試。平均而言,這些「測試小組」的人類達到了60%的成功率,顯著超越了AI模型。
Chollet強調,ARC-AGI-2防止AI模型依賴「暴力計算」來解決問題,這是他承認的第一個測試中的缺陷。為了解決這一問題,ARC-AGI-2引入了效率指標,並要求模型即時解讀模式,而不是依賴記憶。
在博客文章中,Arc獎金基金會共同創辦人Greg Kamradt強調,智能不僅僅是解決問題或獲得高分。他寫道:「這些能力的獲取和部署效率是一個關鍵的定義性組成部分。」「核心問題不僅是『AI能否獲得解決任務的技能?』,還有『以何種效率或成本?』」
ARC-AGI-1在約五年內未被打破,直到2024年12月,OpenAI的高級推理模型o3超越了所有其他AI模型,並達到了人類的表現。然而,o3在ARC-AGI-1上的成功付出了顯著的代價。OpenAI的o3模型版本o3 (low),在ARC-AGI-1上獲得了令人印象深刻的75.7%分數,但在ARC-AGI-2上僅獲得4%,每項任務使用了價值200美元的計算能力。
隨著新基準的推出,Arc獎金基金會宣布了2025年Arc獎金競賽,挑戰開發者在ARC-AGI-2測試中實現85%的準確率,同時每項任務僅花費0.42美元。


This ARC-AGI-2 test sounds brutal! Most AI models are getting crushed, which makes me wonder if we’re hyping AI too much. 🤔 Cool to see Chollet shaking things up though!




Este test ARC-AGI-2 es realmente difícil. Lo probé con varios modelos de IA y todos se quedaron atascados. Es genial ver cómo desafía los límites, pero es frustrante cuando ni siquiera los modelos top pueden resolverlo. Quizás sea hora de un nuevo enfoque en el desarrollo de IA. ¡Sigan empujando los límites, pero no olviden celebrar las pequeñas victorias también!




¡Este nuevo test de AGI es realmente difícil! Lo intenté y ni siquiera los modelos de IA más inteligentes que conozco pudieron resolverlo. Es como un rompecabezas que te mantiene despierto toda la noche. Felicitaciones a François Chollet por desafiar los límites, pero es frustrante cuando hasta los mejores fallan. Tal vez la próxima vez, ¿verdad?




ARC-AGI-2のテストは本当に難しいですね!いくつかのAIモデルで試してみましたが、どれも解けませんでした。限界を押し広げるのは素晴らしいですが、トップモデルが解けないとちょっとイライラします。AI開発に新しいアプローチが必要かもしれませんね。小さな勝利も祝いましょう!




この新しいAGIテスト、めっちゃ難しいです!試してみたけど、知っている中で一番賢いAIモデルでも解けませんでした。夜更かししてしまうパズルのようです。フランソワ・ショレに敬意を表しますが、最高のAIが失敗するのはもどかしいですね。次こそは、ね?




新しいAGIテストが難しいんだって?ほとんどのAIモデルが苦戦してるらしいね。それはすごいけど、ちょっと怖いよね。本当のAIまでどれだけ遠いのか気になるな。とにかく、限界を押し広げてほしいな。誰かが解くまでどれくらいかかるか見てみよう!












