

Der neue AGI -Test erweist sich als herausfordernd, die Mehrheit der KI -Modelle der Stümpfe
10. April 2025
WillPerez
37
Die ARC Prize Foundation, die von dem renommierten AI-Forscher François Chollet mitbegründet wurde, hat kürzlich einen neuen Benchmark namens ARC-Agi-2 in einem Blog-Beitrag vorgestellt. Dieser Test zielt darauf ab, die Grenzen der allgemeinen Intelligenz von AI zu überschreiten, und es erweist sich bisher als harte Nuss, um für die meisten KI -Modelle zu knacken.
Laut der ARC-Prize-Rangliste führen sogar fortgeschrittene "Argumentation" -Mi-Modelle wie O1-Pro und Deepseeks R1 nur die Ergebnisse zwischen 1% und 1,3%. In der Zwischenzeit schweben leistungsstarke Nicht-Begrenzungsmodelle wie GPT-4,5, Claude 3.7 Sonett und Gemini 2.0 Flash um die 1% -Marke.
ARC-Agi-Tests fordern KI-Systeme mit puzzleähnlichen Problemen in Frage, wobei sie visuelle Muster in Grids unterschiedlicher Felder identifizieren und das richtige "Antwort" -Raster erzeugen. Diese Probleme sollen die Fähigkeit einer KI testen, sich an neue, unsichtbare Herausforderungen anzupassen.
Um eine menschliche Grundlinie zu errichten, ließ die ARC-Preisstiftung über 400 Menschen den ARC-Agi-2-Test durchführen. Im Durchschnitt erreichten diese "Panels" des Menschen eine Erfolgsrate von 60% und übertrafen die KI -Modelle signifikant.

Eine Beispielfrage aus ARC-AGI-2.image Credits: Bogenpreis François Chollet nahm X an, um zu behaupten, dass ARC-Agi-2 ein genaueres Maß für die wahre Intelligenz eines KI-Modells im Vergleich zu seinem Vorgänger ARC-AGI-1 ist. Die Tests der Arc Prize Foundation sollen beurteilen, ob eine KI über ihre Schulungsdaten hinaus neue Fähigkeiten erlernen kann.
Chollet betonte, dass ARC-Agi-2 verhindert, dass KI-Modelle sich auf die Rechenleistung von "Brute Force" verlassen, um Probleme zu lösen, ein Fehler, den er im ersten Test anerkannte. Um dies anzugehen, führt ARC-Agi-2 eine Effizienzmetrik ein und erfordert Modelle, um Muster im laufenden Fliegen zu interpretieren, anstatt sich auf das Auswendiglernen zu verlassen.
In einem Blog-Beitrag betonte der Mitbegründer der Arc Prize Foundation Greg Kamradt, dass Intelligenz nicht nur darum geht, Probleme zu lösen oder hohe Punktzahlen zu erzielen. "Die Effizienz, mit der diese Fähigkeiten erworben und eingesetzt werden, ist eine entscheidende, definierende Komponente", schrieb er. "Die Kernfrage, die gestellt wird, lautet nicht nur:" Kann KI die Fähigkeit erwerben, eine Aufgabe zu lösen? " Aber auch 'zu welcher Effizienz oder der Kosten?' "
ARC-Agi-1 blieb bis Dezember 2024 ungefähr fünf Jahre ungeschlagen, als Openais fortgeschrittenes Argumentationsmodell O3 alle anderen KI-Modelle übertraf und die menschliche Leistung entsprach. Der Erfolg von O3 bei ARC-Agi-1 war jedoch erhebliche Kosten. Die Version des O3-Modells von OpenAI, O3 (niedrig), das bei ARC-AGI-1 beeindruckend 75,7% erzielte, verwaltete nur 4% für ARC-AGI-2 mit Rechenleistung pro Aufgabe im Wert von 200 USD.

Vergleich der Leistungsmodellleistung von Frontier-KI bei ARC-Agi-1 und ARC-AGI-2.image Credits: Bogenpreis Die Einführung von ARC-Agi-2 erfolgt zu einer Zeit, in der viele in der Tech-Branche neue, ungesättigte Benchmarks fordern, um die KI-Fortschritte zu messen. Thomas Wolf, Mitbegründer von Hugging Face, sagte kürzlich mit TechCrunch, dass der KI-Industrie ausreichende Tests fehlen, um die wichtigsten Merkmale der künstlichen allgemeinen Intelligenz wie Kreativität zu messen.
Neben dem neuen Benchmark kündigte die ARC-Prize-Stiftung den ARC-Preis 2025-Wettbewerb an und forderte Entwickler auf, eine Genauigkeit von 85% für den ARC-Agi-2-Test zu erreichen und gleichzeitig nur 0,42 USD pro Aufgabe auszugeben.
Verwandter Artikel
OpenAI -Streik zurück: verklagt Elon Musk wegen mutmaßlicher Bemühungen, den AI -Konkurrenten zu untergraben
OpenAI hat einen heftigen Rechtsangriff gegen seinen Mitbegründer Elon Musk und seine konkurrierende KI-Firma XAI gestartet. In einer dramatischen Eskalation ihrer anhaltenden Fehde beschuldigt OpenAI Musk, eine "unerbittliche" und "bösartige" Kampagne durchzuführen, um das Unternehmen zu untergraben, das er beibehalten hat. Nach Gericht d
Gesetz der Beschleunigung von Renditen erklärt: Weg zur AGI -Entwicklung
In einem kürzlichen Interview teilte Elon Musk seine optimistische Sicht auf die Zeitleiste für den Aufkommen der künstlichen allgemeinen Intelligenz (AGI) mit und erklärte, dass es sobald *„3 bis 6 Jahre“ *sein könnte. In ähnlicher Weise drückte Demis Hassabis, CEO von Google's DeepMind, in der Zukunft des Wall Street Journal von allem Fest aus
Eric Schmidt lehnt das Agi Manhattan -Projekt ab
In einem am Mittwoch veröffentlichten Richtlinienpapier, der ehemalige Google-CEO Eric Schmidt, zusammen mit dem CEO Alexandr Wang und dem Zentrum für KI-Sicherheitsdirektor Dan Hendrycks, der gegen die US-amerikanischen Einführung einer Initiative von AI-Systemen mit "Superhuman" -Nobilienung, häufig verweisen
Kommentare (35)
0/200
StephenMartinez
10. April 2025 15:27:48 GMT
The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!
0
StevenSanchez
10. April 2025 15:27:48 GMT
Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!
0
AndrewHernández
10. April 2025 15:27:48 GMT
Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!
0
BrianGarcia
10. April 2025 15:27:48 GMT
O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!
0
GeorgeEvans
10. April 2025 15:27:48 GMT
¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!
0
StevenLopez
11. April 2025 00:18:46 GMT
This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?
0






Die ARC Prize Foundation, die von dem renommierten AI-Forscher François Chollet mitbegründet wurde, hat kürzlich einen neuen Benchmark namens ARC-Agi-2 in einem Blog-Beitrag vorgestellt. Dieser Test zielt darauf ab, die Grenzen der allgemeinen Intelligenz von AI zu überschreiten, und es erweist sich bisher als harte Nuss, um für die meisten KI -Modelle zu knacken.
Laut der ARC-Prize-Rangliste führen sogar fortgeschrittene "Argumentation" -Mi-Modelle wie O1-Pro und Deepseeks R1 nur die Ergebnisse zwischen 1% und 1,3%. In der Zwischenzeit schweben leistungsstarke Nicht-Begrenzungsmodelle wie GPT-4,5, Claude 3.7 Sonett und Gemini 2.0 Flash um die 1% -Marke.
ARC-Agi-Tests fordern KI-Systeme mit puzzleähnlichen Problemen in Frage, wobei sie visuelle Muster in Grids unterschiedlicher Felder identifizieren und das richtige "Antwort" -Raster erzeugen. Diese Probleme sollen die Fähigkeit einer KI testen, sich an neue, unsichtbare Herausforderungen anzupassen.
Um eine menschliche Grundlinie zu errichten, ließ die ARC-Preisstiftung über 400 Menschen den ARC-Agi-2-Test durchführen. Im Durchschnitt erreichten diese "Panels" des Menschen eine Erfolgsrate von 60% und übertrafen die KI -Modelle signifikant.
Chollet betonte, dass ARC-Agi-2 verhindert, dass KI-Modelle sich auf die Rechenleistung von "Brute Force" verlassen, um Probleme zu lösen, ein Fehler, den er im ersten Test anerkannte. Um dies anzugehen, führt ARC-Agi-2 eine Effizienzmetrik ein und erfordert Modelle, um Muster im laufenden Fliegen zu interpretieren, anstatt sich auf das Auswendiglernen zu verlassen.
In einem Blog-Beitrag betonte der Mitbegründer der Arc Prize Foundation Greg Kamradt, dass Intelligenz nicht nur darum geht, Probleme zu lösen oder hohe Punktzahlen zu erzielen. "Die Effizienz, mit der diese Fähigkeiten erworben und eingesetzt werden, ist eine entscheidende, definierende Komponente", schrieb er. "Die Kernfrage, die gestellt wird, lautet nicht nur:" Kann KI die Fähigkeit erwerben, eine Aufgabe zu lösen? " Aber auch 'zu welcher Effizienz oder der Kosten?' "
ARC-Agi-1 blieb bis Dezember 2024 ungefähr fünf Jahre ungeschlagen, als Openais fortgeschrittenes Argumentationsmodell O3 alle anderen KI-Modelle übertraf und die menschliche Leistung entsprach. Der Erfolg von O3 bei ARC-Agi-1 war jedoch erhebliche Kosten. Die Version des O3-Modells von OpenAI, O3 (niedrig), das bei ARC-AGI-1 beeindruckend 75,7% erzielte, verwaltete nur 4% für ARC-AGI-2 mit Rechenleistung pro Aufgabe im Wert von 200 USD.
Neben dem neuen Benchmark kündigte die ARC-Prize-Stiftung den ARC-Preis 2025-Wettbewerb an und forderte Entwickler auf, eine Genauigkeit von 85% für den ARC-Agi-2-Test zu erreichen und gleichzeitig nur 0,42 USD pro Aufgabe auszugeben.



The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!




Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!




Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!




O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!




¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!




This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?












