Option
Heim Nachricht Der neue AGI -Test erweist sich als herausfordernd, die Mehrheit der KI -Modelle der Stümpfe

Der neue AGI -Test erweist sich als herausfordernd, die Mehrheit der KI -Modelle der Stümpfe

Veröffentlichungsdatum Veröffentlichungsdatum 10. April 2025
Autor Autor WillPerez
Ansichten Ansichten 37

Die ARC Prize Foundation, die von dem renommierten AI-Forscher François Chollet mitbegründet wurde, hat kürzlich einen neuen Benchmark namens ARC-Agi-2 in einem Blog-Beitrag vorgestellt. Dieser Test zielt darauf ab, die Grenzen der allgemeinen Intelligenz von AI zu überschreiten, und es erweist sich bisher als harte Nuss, um für die meisten KI -Modelle zu knacken.

Laut der ARC-Prize-Rangliste führen sogar fortgeschrittene "Argumentation" -Mi-Modelle wie O1-Pro und Deepseeks R1 nur die Ergebnisse zwischen 1% und 1,3%. In der Zwischenzeit schweben leistungsstarke Nicht-Begrenzungsmodelle wie GPT-4,5, Claude 3.7 Sonett und Gemini 2.0 Flash um die 1% -Marke.

ARC-Agi-Tests fordern KI-Systeme mit puzzleähnlichen Problemen in Frage, wobei sie visuelle Muster in Grids unterschiedlicher Felder identifizieren und das richtige "Antwort" -Raster erzeugen. Diese Probleme sollen die Fähigkeit einer KI testen, sich an neue, unsichtbare Herausforderungen anzupassen.

Um eine menschliche Grundlinie zu errichten, ließ die ARC-Preisstiftung über 400 Menschen den ARC-Agi-2-Test durchführen. Im Durchschnitt erreichten diese "Panels" des Menschen eine Erfolgsrate von 60% und übertrafen die KI -Modelle signifikant.

Eine Beispielfrage aus ARC-AGI-2.image Credits: Bogenpreis
François Chollet nahm X an, um zu behaupten, dass ARC-Agi-2 ein genaueres Maß für die wahre Intelligenz eines KI-Modells im Vergleich zu seinem Vorgänger ARC-AGI-1 ist. Die Tests der Arc Prize Foundation sollen beurteilen, ob eine KI über ihre Schulungsdaten hinaus neue Fähigkeiten erlernen kann.

Chollet betonte, dass ARC-Agi-2 verhindert, dass KI-Modelle sich auf die Rechenleistung von "Brute Force" verlassen, um Probleme zu lösen, ein Fehler, den er im ersten Test anerkannte. Um dies anzugehen, führt ARC-Agi-2 eine Effizienzmetrik ein und erfordert Modelle, um Muster im laufenden Fliegen zu interpretieren, anstatt sich auf das Auswendiglernen zu verlassen.

In einem Blog-Beitrag betonte der Mitbegründer der Arc Prize Foundation Greg Kamradt, dass Intelligenz nicht nur darum geht, Probleme zu lösen oder hohe Punktzahlen zu erzielen. "Die Effizienz, mit der diese Fähigkeiten erworben und eingesetzt werden, ist eine entscheidende, definierende Komponente", schrieb er. "Die Kernfrage, die gestellt wird, lautet nicht nur:" Kann KI die Fähigkeit erwerben, eine Aufgabe zu lösen? " Aber auch 'zu welcher Effizienz oder der Kosten?' "

ARC-Agi-1 blieb bis Dezember 2024 ungefähr fünf Jahre ungeschlagen, als Openais fortgeschrittenes Argumentationsmodell O3 alle anderen KI-Modelle übertraf und die menschliche Leistung entsprach. Der Erfolg von O3 bei ARC-Agi-1 war jedoch erhebliche Kosten. Die Version des O3-Modells von OpenAI, O3 (niedrig), das bei ARC-AGI-1 beeindruckend 75,7% erzielte, verwaltete nur 4% für ARC-AGI-2 mit Rechenleistung pro Aufgabe im Wert von 200 USD.

Vergleich der Leistungsmodellleistung von Frontier-KI bei ARC-Agi-1 und ARC-AGI-2.image Credits: Bogenpreis
Die Einführung von ARC-Agi-2 erfolgt zu einer Zeit, in der viele in der Tech-Branche neue, ungesättigte Benchmarks fordern, um die KI-Fortschritte zu messen. Thomas Wolf, Mitbegründer von Hugging Face, sagte kürzlich mit TechCrunch, dass der KI-Industrie ausreichende Tests fehlen, um die wichtigsten Merkmale der künstlichen allgemeinen Intelligenz wie Kreativität zu messen.

Neben dem neuen Benchmark kündigte die ARC-Prize-Stiftung den ARC-Preis 2025-Wettbewerb an und forderte Entwickler auf, eine Genauigkeit von 85% für den ARC-Agi-2-Test zu erreichen und gleichzeitig nur 0,42 USD pro Aufgabe auszugeben.

Verwandter Artikel
OpenAI -Streik zurück: verklagt Elon Musk wegen mutmaßlicher Bemühungen, den AI -Konkurrenten zu untergraben OpenAI -Streik zurück: verklagt Elon Musk wegen mutmaßlicher Bemühungen, den AI -Konkurrenten zu untergraben OpenAI hat einen heftigen Rechtsangriff gegen seinen Mitbegründer Elon Musk und seine konkurrierende KI-Firma XAI gestartet. In einer dramatischen Eskalation ihrer anhaltenden Fehde beschuldigt OpenAI Musk, eine "unerbittliche" und "bösartige" Kampagne durchzuführen, um das Unternehmen zu untergraben, das er beibehalten hat. Nach Gericht d
Gesetz der Beschleunigung von Renditen erklärt: Weg zur AGI -Entwicklung Gesetz der Beschleunigung von Renditen erklärt: Weg zur AGI -Entwicklung In einem kürzlichen Interview teilte Elon Musk seine optimistische Sicht auf die Zeitleiste für den Aufkommen der künstlichen allgemeinen Intelligenz (AGI) mit und erklärte, dass es sobald *„3 bis 6 Jahre“ *sein könnte. In ähnlicher Weise drückte Demis Hassabis, CEO von Google's DeepMind, in der Zukunft des Wall Street Journal von allem Fest aus
Eric Schmidt lehnt das Agi Manhattan -Projekt ab Eric Schmidt lehnt das Agi Manhattan -Projekt ab In einem am Mittwoch veröffentlichten Richtlinienpapier, der ehemalige Google-CEO Eric Schmidt, zusammen mit dem CEO Alexandr Wang und dem Zentrum für KI-Sicherheitsdirektor Dan Hendrycks, der gegen die US-amerikanischen Einführung einer Initiative von AI-Systemen mit "Superhuman" -Nobilienung, häufig verweisen
Kommentare (35)
0/200
StephenMartinez
StephenMartinez 10. April 2025 15:27:48 GMT

The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!

StevenSanchez
StevenSanchez 10. April 2025 15:27:48 GMT

Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!

AndrewHernández
AndrewHernández 10. April 2025 15:27:48 GMT

Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!

BrianGarcia
BrianGarcia 10. April 2025 15:27:48 GMT

O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!

GeorgeEvans
GeorgeEvans 10. April 2025 15:27:48 GMT

¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!

StevenLopez
StevenLopez 11. April 2025 00:18:46 GMT

This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?

Zurück nach oben
OR