Le nouveau test AGI s'avère difficile, les souches majorité des modèles d'IA
10 avril 2025
WillPerez
37
L'Arc Prize Foundation, co-fondé par le célèbre chercheur de l'IA, François Chollet, a récemment dévoilé une nouvelle référence appelée Arc-AGI-2 dans un article de blog. Ce test vise à repousser les limites de l'intelligence générale de l'IA, et jusqu'à présent, il s'avère être un écrou difficile à casser pour la plupart des modèles d'IA.
Selon le classement des prix ARC, même les modèles avancés de "raisonnement" comme O1-Pro d'Openai et R1 de Deepseek ne gèrent que des scores entre 1% et 1,3%. Pendant ce temps, de puissants modèles non relâchés tels que GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash oscillent autour de la marque de 1%.
Les tests ARC-AGI remettent en question les systèmes d'IA avec des problèmes de puzzle, les obligeant à identifier les modèles visuels dans les grilles de différentes carrés de couleur et à générer la grille de "réponse" correcte. Ces problèmes sont conçus pour tester la capacité d'une IA à s'adapter à de nouveaux défis invisibles.
Pour établir une base de référence humaine, l'Arc Prize Foundation a demandé à plus de 400 personnes de passer le test ARC-AGI-2. En moyenne, ces «panneaux» des humains ont atteint un taux de réussite de 60%, surpassant considérablement les modèles d'IA.

Un exemple de question d'ARC-AGI-2. Crédits d'image: prix ARC François Chollet est allé chez X pour affirmer que Arc-AGI-2 est une mesure plus précise de la véritable intelligence d'un modèle d'IA par rapport à son prédécesseur, ARC-AGI-1. Les tests de la Fondation ARC Prize sont conçus pour évaluer si une IA peut acquérir efficacement de nouvelles compétences au-delà de ses données de formation.
Chollet a souligné qu'ARC-AGI-2 empêche les modèles d'IA de s'appuyer sur le pouvoir de calcul de la "force brute" pour résoudre les problèmes, un défaut qu'il a reconnu lors du premier test. Pour y remédier, ARC-AGI-2 introduit une métrique d'efficacité et nécessite des modèles pour interpréter les modèles à la volée plutôt que de compter sur la mémorisation.
Dans un article de blog, le co-fondateur de la Fondation Arc Prize, Greg Kamradt, a souligné que l'intelligence ne concerne pas seulement la résolution des problèmes ou la réalisation de scores élevés. "L'efficacité avec laquelle ces capacités sont acquises et déployées est une composante cruciale et déterminante", a-t-il écrit. "La question principale posée n'est pas seulement:" L'IA peut-elle acquérir [la] compétence pour résoudre une tâche? " mais aussi, "à quelle efficacité ou quelle coût?" "
ARC-AGI-1 est resté invaincu pendant environ cinq ans jusqu'en décembre 2024, lorsque le modèle de raisonnement avancé d'OpenAI, O3, a dépassé tous les autres modèles d'IA et correspondait aux performances humaines. Cependant, le succès d'O3 sur ARC-AGI-1 a atteint un coût important. La version du modèle O3 d'OpenAI, O3 (bas), qui a obtenu un impressionnant 75,7% sur ARC-AGI-1, n'a géré que 4% sur ARC-AGI-2, en utilisant 200 $ de puissance de calcul par tâche.

Comparaison des performances du modèle FRONTIER AI sur ARC-AGI-1 et ARC-AGI-2. Crédits d'image: prix ARC L'introduction d'Arc-AGI-2 survient à un moment où de nombreux membres de l'industrie technologique appellent de nouveaux repères insaturés pour mesurer les progrès de l'IA. Thomas Wolf, co-fondateur de Hugging Face, a récemment déclaré à TechCrunch que l'industrie de l'IA n'avait pas suffisamment de tests pour mesurer les traits clés de l'intelligence générale artificielle, comme la créativité.
Parallèlement à la nouvelle référence, l'Arc Prize Foundation a annoncé le concours ARC Prize 2025, mettant les développeurs au défi d'atteindre une précision de 85% sur le test ARC-AGI-2 tout en dépensant seulement 0,42 $ par tâche.
Article connexe
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手
Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
加速回报定律解释了:AGI开发途径
在最近的一次采访中,埃隆·马斯克(Elon Musk)分享了他对人工通用情报(AGI)的时间表的乐观观点(AGI),并指出它可能是 *“ 3至6年” *。同样,Google DeepMind的首席执行官Demis Hassabis在《华尔街日报》的《一切事物》上表达了
埃里克·施密特(Eric Schmidt)反对阿吉·曼哈顿(Agi Manhattan)项目
在周三发布的一份政策文件中,前Google首席执行官埃里克·施密特(Eric Schmidt)以及Scale AI首席执行官Alexandr Wang和AI安全总监Dan Hendrycks中心和AI安全总监Dan Hendrycks中心,建议不要发起曼哈顿项目风格的计划,以开发AI Systems,以“超级人类”的智慧开发AI System
commentaires (35)
0/200
StephenMartinez
10 avril 2025 15:27:48 UTC
The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!
0
StevenSanchez
10 avril 2025 15:27:48 UTC
Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!
0
AndrewHernández
10 avril 2025 15:27:48 UTC
Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!
0
BrianGarcia
10 avril 2025 15:27:48 UTC
O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!
0
GeorgeEvans
10 avril 2025 15:27:48 UTC
¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!
0
StevenLopez
11 avril 2025 00:18:46 UTC
This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?
0






L'Arc Prize Foundation, co-fondé par le célèbre chercheur de l'IA, François Chollet, a récemment dévoilé une nouvelle référence appelée Arc-AGI-2 dans un article de blog. Ce test vise à repousser les limites de l'intelligence générale de l'IA, et jusqu'à présent, il s'avère être un écrou difficile à casser pour la plupart des modèles d'IA.
Selon le classement des prix ARC, même les modèles avancés de "raisonnement" comme O1-Pro d'Openai et R1 de Deepseek ne gèrent que des scores entre 1% et 1,3%. Pendant ce temps, de puissants modèles non relâchés tels que GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash oscillent autour de la marque de 1%.
Les tests ARC-AGI remettent en question les systèmes d'IA avec des problèmes de puzzle, les obligeant à identifier les modèles visuels dans les grilles de différentes carrés de couleur et à générer la grille de "réponse" correcte. Ces problèmes sont conçus pour tester la capacité d'une IA à s'adapter à de nouveaux défis invisibles.
Pour établir une base de référence humaine, l'Arc Prize Foundation a demandé à plus de 400 personnes de passer le test ARC-AGI-2. En moyenne, ces «panneaux» des humains ont atteint un taux de réussite de 60%, surpassant considérablement les modèles d'IA.
Chollet a souligné qu'ARC-AGI-2 empêche les modèles d'IA de s'appuyer sur le pouvoir de calcul de la "force brute" pour résoudre les problèmes, un défaut qu'il a reconnu lors du premier test. Pour y remédier, ARC-AGI-2 introduit une métrique d'efficacité et nécessite des modèles pour interpréter les modèles à la volée plutôt que de compter sur la mémorisation.
Dans un article de blog, le co-fondateur de la Fondation Arc Prize, Greg Kamradt, a souligné que l'intelligence ne concerne pas seulement la résolution des problèmes ou la réalisation de scores élevés. "L'efficacité avec laquelle ces capacités sont acquises et déployées est une composante cruciale et déterminante", a-t-il écrit. "La question principale posée n'est pas seulement:" L'IA peut-elle acquérir [la] compétence pour résoudre une tâche? " mais aussi, "à quelle efficacité ou quelle coût?" "
ARC-AGI-1 est resté invaincu pendant environ cinq ans jusqu'en décembre 2024, lorsque le modèle de raisonnement avancé d'OpenAI, O3, a dépassé tous les autres modèles d'IA et correspondait aux performances humaines. Cependant, le succès d'O3 sur ARC-AGI-1 a atteint un coût important. La version du modèle O3 d'OpenAI, O3 (bas), qui a obtenu un impressionnant 75,7% sur ARC-AGI-1, n'a géré que 4% sur ARC-AGI-2, en utilisant 200 $ de puissance de calcul par tâche.
Parallèlement à la nouvelle référence, l'Arc Prize Foundation a annoncé le concours ARC Prize 2025, mettant les développeurs au défi d'atteindre une précision de 85% sur le test ARC-AGI-2 tout en dépensant seulement 0,42 $ par tâche.



The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!




Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!




Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!




O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!




¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!




This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?












