Der neue AGI -Test erweist sich als herausfordernd, die Mehrheit der KI -Modelle der Stümpfe
Die ARC Prize Foundation, die von dem renommierten AI-Forscher François Chollet mitbegründet wurde, hat kürzlich einen neuen Benchmark namens ARC-Agi-2 in einem Blog-Beitrag vorgestellt. Dieser Test zielt darauf ab, die Grenzen der allgemeinen Intelligenz von AI zu überschreiten, und es erweist sich bisher als harte Nuss, um für die meisten KI -Modelle zu knacken.
Laut der ARC-Prize-Rangliste führen sogar fortgeschrittene "Argumentation" -Mi-Modelle wie O1-Pro und Deepseeks R1 nur die Ergebnisse zwischen 1% und 1,3%. In der Zwischenzeit schweben leistungsstarke Nicht-Begrenzungsmodelle wie GPT-4,5, Claude 3.7 Sonett und Gemini 2.0 Flash um die 1% -Marke.
ARC-Agi-Tests fordern KI-Systeme mit puzzleähnlichen Problemen in Frage, wobei sie visuelle Muster in Grids unterschiedlicher Felder identifizieren und das richtige "Antwort" -Raster erzeugen. Diese Probleme sollen die Fähigkeit einer KI testen, sich an neue, unsichtbare Herausforderungen anzupassen.
Um eine menschliche Grundlinie zu errichten, ließ die ARC-Preisstiftung über 400 Menschen den ARC-Agi-2-Test durchführen. Im Durchschnitt erreichten diese "Panels" des Menschen eine Erfolgsrate von 60% und übertrafen die KI -Modelle signifikant.

Eine Beispielfrage aus ARC-AGI-2.image Credits: Bogenpreis François Chollet nahm X an, um zu behaupten, dass ARC-Agi-2 ein genaueres Maß für die wahre Intelligenz eines KI-Modells im Vergleich zu seinem Vorgänger ARC-AGI-1 ist. Die Tests der Arc Prize Foundation sollen beurteilen, ob eine KI über ihre Schulungsdaten hinaus neue Fähigkeiten erlernen kann.
Chollet betonte, dass ARC-Agi-2 verhindert, dass KI-Modelle sich auf die Rechenleistung von "Brute Force" verlassen, um Probleme zu lösen, ein Fehler, den er im ersten Test anerkannte. Um dies anzugehen, führt ARC-Agi-2 eine Effizienzmetrik ein und erfordert Modelle, um Muster im laufenden Fliegen zu interpretieren, anstatt sich auf das Auswendiglernen zu verlassen.
In einem Blog-Beitrag betonte der Mitbegründer der Arc Prize Foundation Greg Kamradt, dass Intelligenz nicht nur darum geht, Probleme zu lösen oder hohe Punktzahlen zu erzielen. "Die Effizienz, mit der diese Fähigkeiten erworben und eingesetzt werden, ist eine entscheidende, definierende Komponente", schrieb er. "Die Kernfrage, die gestellt wird, lautet nicht nur:" Kann KI die Fähigkeit erwerben, eine Aufgabe zu lösen? " Aber auch 'zu welcher Effizienz oder der Kosten?' "
ARC-Agi-1 blieb bis Dezember 2024 ungefähr fünf Jahre ungeschlagen, als Openais fortgeschrittenes Argumentationsmodell O3 alle anderen KI-Modelle übertraf und die menschliche Leistung entsprach. Der Erfolg von O3 bei ARC-Agi-1 war jedoch erhebliche Kosten. Die Version des O3-Modells von OpenAI, O3 (niedrig), das bei ARC-AGI-1 beeindruckend 75,7% erzielte, verwaltete nur 4% für ARC-AGI-2 mit Rechenleistung pro Aufgabe im Wert von 200 USD.

Vergleich der Leistungsmodellleistung von Frontier-KI bei ARC-Agi-1 und ARC-AGI-2.image Credits: Bogenpreis Die Einführung von ARC-Agi-2 erfolgt zu einer Zeit, in der viele in der Tech-Branche neue, ungesättigte Benchmarks fordern, um die KI-Fortschritte zu messen. Thomas Wolf, Mitbegründer von Hugging Face, sagte kürzlich mit TechCrunch, dass der KI-Industrie ausreichende Tests fehlen, um die wichtigsten Merkmale der künstlichen allgemeinen Intelligenz wie Kreativität zu messen.
Neben dem neuen Benchmark kündigte die ARC-Prize-Stiftung den ARC-Preis 2025-Wettbewerb an und forderte Entwickler auf, eine Genauigkeit von 85% für den ARC-Agi-2-Test zu erreichen und gleichzeitig nur 0,42 USD pro Aufgabe auszugeben.
Verwandter Artikel
AI領導者討論AGI:基於現實
在最近一次與舊金山商業領袖的晚餐上,我提出了一個似乎讓現場冷場的問題:今天的人工智能是否能達到或超越人類的智能?這是一個比你預期的更能引發爭議的話題。到了2025年,科技CEO們對像ChatGPT和Gemini背後的大型語言模型(LLM)充滿了樂觀情緒。他們相信這些模型很快就能達到人類級別甚至超人類的智能。以Anthropic的Dario Amodei為例,
Openai反擊:起訴Elon Musk涉嫌努力破壞AI競爭對手
Openai對其聯合創始人Elon Musk及其競爭的AI公司Xai發起了激烈的法律反擊。在他們正在進行的爭執的戲劇性升級中,Openai指責馬斯克發動了一場“無情”和“惡意”運動,破壞了他幫助創辦的公司。根據法院D
加速回報定律解釋了:AGI開發途徑
在最近的一次採訪中,埃隆·馬斯克(Elon Musk)分享了他對人工通用情報(AGI)的時間表的樂觀觀點(AGI),並指出它可能是 *“ 3至6年” *。同樣,Google DeepMind的首席執行官Demis Hassabis在《華爾街日報》的《一切事物》上表達了
Kommentare (35)
0/200
StephenMartinez
10. April 2025 00:00:00 GMT
The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!
0
StevenSanchez
10. April 2025 00:00:00 GMT
Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!
0
AndrewHernández
10. April 2025 00:00:00 GMT
Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!
0
BrianGarcia
10. April 2025 00:00:00 GMT
O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!
0
GeorgeEvans
10. April 2025 00:00:00 GMT
¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!
0
StevenLopez
11. April 2025 00:00:00 GMT
This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?
0
Die ARC Prize Foundation, die von dem renommierten AI-Forscher François Chollet mitbegründet wurde, hat kürzlich einen neuen Benchmark namens ARC-Agi-2 in einem Blog-Beitrag vorgestellt. Dieser Test zielt darauf ab, die Grenzen der allgemeinen Intelligenz von AI zu überschreiten, und es erweist sich bisher als harte Nuss, um für die meisten KI -Modelle zu knacken.
Laut der ARC-Prize-Rangliste führen sogar fortgeschrittene "Argumentation" -Mi-Modelle wie O1-Pro und Deepseeks R1 nur die Ergebnisse zwischen 1% und 1,3%. In der Zwischenzeit schweben leistungsstarke Nicht-Begrenzungsmodelle wie GPT-4,5, Claude 3.7 Sonett und Gemini 2.0 Flash um die 1% -Marke.
ARC-Agi-Tests fordern KI-Systeme mit puzzleähnlichen Problemen in Frage, wobei sie visuelle Muster in Grids unterschiedlicher Felder identifizieren und das richtige "Antwort" -Raster erzeugen. Diese Probleme sollen die Fähigkeit einer KI testen, sich an neue, unsichtbare Herausforderungen anzupassen.
Um eine menschliche Grundlinie zu errichten, ließ die ARC-Preisstiftung über 400 Menschen den ARC-Agi-2-Test durchführen. Im Durchschnitt erreichten diese "Panels" des Menschen eine Erfolgsrate von 60% und übertrafen die KI -Modelle signifikant.
Chollet betonte, dass ARC-Agi-2 verhindert, dass KI-Modelle sich auf die Rechenleistung von "Brute Force" verlassen, um Probleme zu lösen, ein Fehler, den er im ersten Test anerkannte. Um dies anzugehen, führt ARC-Agi-2 eine Effizienzmetrik ein und erfordert Modelle, um Muster im laufenden Fliegen zu interpretieren, anstatt sich auf das Auswendiglernen zu verlassen.
In einem Blog-Beitrag betonte der Mitbegründer der Arc Prize Foundation Greg Kamradt, dass Intelligenz nicht nur darum geht, Probleme zu lösen oder hohe Punktzahlen zu erzielen. "Die Effizienz, mit der diese Fähigkeiten erworben und eingesetzt werden, ist eine entscheidende, definierende Komponente", schrieb er. "Die Kernfrage, die gestellt wird, lautet nicht nur:" Kann KI die Fähigkeit erwerben, eine Aufgabe zu lösen? " Aber auch 'zu welcher Effizienz oder der Kosten?' "
ARC-Agi-1 blieb bis Dezember 2024 ungefähr fünf Jahre ungeschlagen, als Openais fortgeschrittenes Argumentationsmodell O3 alle anderen KI-Modelle übertraf und die menschliche Leistung entsprach. Der Erfolg von O3 bei ARC-Agi-1 war jedoch erhebliche Kosten. Die Version des O3-Modells von OpenAI, O3 (niedrig), das bei ARC-AGI-1 beeindruckend 75,7% erzielte, verwaltete nur 4% für ARC-AGI-2 mit Rechenleistung pro Aufgabe im Wert von 200 USD.
Neben dem neuen Benchmark kündigte die ARC-Prize-Stiftung den ARC-Preis 2025-Wettbewerb an und forderte Entwickler auf, eine Genauigkeit von 85% für den ARC-Agi-2-Test zu erreichen und gleichzeitig nur 0,42 USD pro Aufgabe auszugeben.



The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!




Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!




Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!




O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!




¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!




This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?












