Le nouveau test AGI s'avère difficile, les souches majorité des modèles d'IA
L'Arc Prize Foundation, co-fondé par le célèbre chercheur de l'IA, François Chollet, a récemment dévoilé une nouvelle référence appelée Arc-AGI-2 dans un article de blog. Ce test vise à repousser les limites de l'intelligence générale de l'IA, et jusqu'à présent, il s'avère être un écrou difficile à casser pour la plupart des modèles d'IA.
Selon le classement des prix ARC, même les modèles avancés de "raisonnement" comme O1-Pro d'Openai et R1 de Deepseek ne gèrent que des scores entre 1% et 1,3%. Pendant ce temps, de puissants modèles non relâchés tels que GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash oscillent autour de la marque de 1%.
Les tests ARC-AGI remettent en question les systèmes d'IA avec des problèmes de puzzle, les obligeant à identifier les modèles visuels dans les grilles de différentes carrés de couleur et à générer la grille de "réponse" correcte. Ces problèmes sont conçus pour tester la capacité d'une IA à s'adapter à de nouveaux défis invisibles.
Pour établir une base de référence humaine, l'Arc Prize Foundation a demandé à plus de 400 personnes de passer le test ARC-AGI-2. En moyenne, ces «panneaux» des humains ont atteint un taux de réussite de 60%, surpassant considérablement les modèles d'IA.

Un exemple de question d'ARC-AGI-2. Crédits d'image: prix ARC François Chollet est allé chez X pour affirmer que Arc-AGI-2 est une mesure plus précise de la véritable intelligence d'un modèle d'IA par rapport à son prédécesseur, ARC-AGI-1. Les tests de la Fondation ARC Prize sont conçus pour évaluer si une IA peut acquérir efficacement de nouvelles compétences au-delà de ses données de formation.
Chollet a souligné qu'ARC-AGI-2 empêche les modèles d'IA de s'appuyer sur le pouvoir de calcul de la "force brute" pour résoudre les problèmes, un défaut qu'il a reconnu lors du premier test. Pour y remédier, ARC-AGI-2 introduit une métrique d'efficacité et nécessite des modèles pour interpréter les modèles à la volée plutôt que de compter sur la mémorisation.
Dans un article de blog, le co-fondateur de la Fondation Arc Prize, Greg Kamradt, a souligné que l'intelligence ne concerne pas seulement la résolution des problèmes ou la réalisation de scores élevés. "L'efficacité avec laquelle ces capacités sont acquises et déployées est une composante cruciale et déterminante", a-t-il écrit. "La question principale posée n'est pas seulement:" L'IA peut-elle acquérir [la] compétence pour résoudre une tâche? " mais aussi, "à quelle efficacité ou quelle coût?" "
ARC-AGI-1 est resté invaincu pendant environ cinq ans jusqu'en décembre 2024, lorsque le modèle de raisonnement avancé d'OpenAI, O3, a dépassé tous les autres modèles d'IA et correspondait aux performances humaines. Cependant, le succès d'O3 sur ARC-AGI-1 a atteint un coût important. La version du modèle O3 d'OpenAI, O3 (bas), qui a obtenu un impressionnant 75,7% sur ARC-AGI-1, n'a géré que 4% sur ARC-AGI-2, en utilisant 200 $ de puissance de calcul par tâche.

Comparaison des performances du modèle FRONTIER AI sur ARC-AGI-1 et ARC-AGI-2. Crédits d'image: prix ARC L'introduction d'Arc-AGI-2 survient à un moment où de nombreux membres de l'industrie technologique appellent de nouveaux repères insaturés pour mesurer les progrès de l'IA. Thomas Wolf, co-fondateur de Hugging Face, a récemment déclaré à TechCrunch que l'industrie de l'IA n'avait pas suffisamment de tests pour mesurer les traits clés de l'intelligence générale artificielle, comme la créativité.
Parallèlement à la nouvelle référence, l'Arc Prize Foundation a annoncé le concours ARC Prize 2025, mettant les développeurs au défi d'atteindre une précision de 85% sur le test ARC-AGI-2 tout en dépensant seulement 0,42 $ par tâche.
Article connexe
AI領導者討論AGI:基於現實
在最近一次與舊金山商業領袖的晚餐上,我提出了一個似乎讓現場冷場的問題:今天的人工智能是否能達到或超越人類的智能?這是一個比你預期的更能引發爭議的話題。到了2025年,科技CEO們對像ChatGPT和Gemini背後的大型語言模型(LLM)充滿了樂觀情緒。他們相信這些模型很快就能達到人類級別甚至超人類的智能。以Anthropic的Dario Amodei為例,
Openai反擊:起訴Elon Musk涉嫌努力破壞AI競爭對手
Openai對其聯合創始人Elon Musk及其競爭的AI公司Xai發起了激烈的法律反擊。在他們正在進行的爭執的戲劇性升級中,Openai指責馬斯克發動了一場“無情”和“惡意”運動,破壞了他幫助創辦的公司。根據法院D
加速回報定律解釋了:AGI開發途徑
在最近的一次採訪中,埃隆·馬斯克(Elon Musk)分享了他對人工通用情報(AGI)的時間表的樂觀觀點(AGI),並指出它可能是 *“ 3至6年” *。同樣,Google DeepMind的首席執行官Demis Hassabis在《華爾街日報》的《一切事物》上表達了
commentaires (35)
0/200
StephenMartinez
10 avril 2025 00:00:00 UTC
The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!
0
StevenSanchez
10 avril 2025 00:00:00 UTC
Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!
0
AndrewHernández
10 avril 2025 00:00:00 UTC
Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!
0
BrianGarcia
10 avril 2025 00:00:00 UTC
O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!
0
GeorgeEvans
10 avril 2025 00:00:00 UTC
¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!
0
StevenLopez
11 avril 2025 00:00:00 UTC
This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?
0
L'Arc Prize Foundation, co-fondé par le célèbre chercheur de l'IA, François Chollet, a récemment dévoilé une nouvelle référence appelée Arc-AGI-2 dans un article de blog. Ce test vise à repousser les limites de l'intelligence générale de l'IA, et jusqu'à présent, il s'avère être un écrou difficile à casser pour la plupart des modèles d'IA.
Selon le classement des prix ARC, même les modèles avancés de "raisonnement" comme O1-Pro d'Openai et R1 de Deepseek ne gèrent que des scores entre 1% et 1,3%. Pendant ce temps, de puissants modèles non relâchés tels que GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash oscillent autour de la marque de 1%.
Les tests ARC-AGI remettent en question les systèmes d'IA avec des problèmes de puzzle, les obligeant à identifier les modèles visuels dans les grilles de différentes carrés de couleur et à générer la grille de "réponse" correcte. Ces problèmes sont conçus pour tester la capacité d'une IA à s'adapter à de nouveaux défis invisibles.
Pour établir une base de référence humaine, l'Arc Prize Foundation a demandé à plus de 400 personnes de passer le test ARC-AGI-2. En moyenne, ces «panneaux» des humains ont atteint un taux de réussite de 60%, surpassant considérablement les modèles d'IA.
Chollet a souligné qu'ARC-AGI-2 empêche les modèles d'IA de s'appuyer sur le pouvoir de calcul de la "force brute" pour résoudre les problèmes, un défaut qu'il a reconnu lors du premier test. Pour y remédier, ARC-AGI-2 introduit une métrique d'efficacité et nécessite des modèles pour interpréter les modèles à la volée plutôt que de compter sur la mémorisation.
Dans un article de blog, le co-fondateur de la Fondation Arc Prize, Greg Kamradt, a souligné que l'intelligence ne concerne pas seulement la résolution des problèmes ou la réalisation de scores élevés. "L'efficacité avec laquelle ces capacités sont acquises et déployées est une composante cruciale et déterminante", a-t-il écrit. "La question principale posée n'est pas seulement:" L'IA peut-elle acquérir [la] compétence pour résoudre une tâche? " mais aussi, "à quelle efficacité ou quelle coût?" "
ARC-AGI-1 est resté invaincu pendant environ cinq ans jusqu'en décembre 2024, lorsque le modèle de raisonnement avancé d'OpenAI, O3, a dépassé tous les autres modèles d'IA et correspondait aux performances humaines. Cependant, le succès d'O3 sur ARC-AGI-1 a atteint un coût important. La version du modèle O3 d'OpenAI, O3 (bas), qui a obtenu un impressionnant 75,7% sur ARC-AGI-1, n'a géré que 4% sur ARC-AGI-2, en utilisant 200 $ de puissance de calcul par tâche.
Parallèlement à la nouvelle référence, l'Arc Prize Foundation a annoncé le concours ARC Prize 2025, mettant les développeurs au défi d'atteindre une précision de 85% sur le test ARC-AGI-2 tout en dépensant seulement 0,42 $ par tâche.



The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!




Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!




Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!




O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!




¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!




This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?












