La nueva prueba AGI demuestra que los modelos de IA desafiantes y desafiantes
10 de abril de 2025
WillPerez
37
La Fundación del Premio ARC, cofundada por el famoso investigador de IA François Chollet, recientemente presentó un nuevo punto de referencia llamado ARC-AGI-2 en una publicación de blog. Esta prueba tiene como objetivo superar los límites de la inteligencia general de la IA, y hasta ahora, está demostrando ser una nuez difícil de descifrar para la mayoría de los modelos de IA.
Según la tabla de clasificación del premio ARC, incluso los modelos de IA de "razonamiento" avanzados como O1-Pro de OpenAI y Deepseek's R1 solo administran puntajes entre 1% y 1.3%. Mientras tanto, los poderosos modelos no de razonamiento como GPT-4.5, el soneto Claude 3.7 y Gemini 2.0 Flash están rondando la marca del 1%.
Las pruebas de ARC-AGI desafían los sistemas AI con problemas similares a los rompecabezas, lo que requiere que identifiquen patrones visuales en cuadrículas de cuadrados de diferentes colores y generen la cuadrícula correcta de "respuesta". Estos problemas están diseñados para probar la capacidad de una IA para adaptarse a desafíos nuevos e invisibles.
Para establecer una línea de base humana, la Fundación del Premio ARC tenía más de 400 personas que tomaron la prueba ARC-AGI-2. En promedio, estos "paneles" de humanos lograron una tasa de éxito del 60%, superando significativamente los modelos de IA.

Una pregunta de muestra de ARC-AGI-2. CRÉDITOS DE IMAGEN: Premio ARC François Chollet llevó a X para afirmar que ARC-AGI-2 es una medida más precisa de la verdadera inteligencia de un modelo de IA en comparación con su predecesor, ARC-AGI-1. Las pruebas de la Fundación del Premio ARC están diseñadas para evaluar si una IA puede aprender eficientemente nuevas habilidades más allá de sus datos de capacitación.
Chollet enfatizó que ARC-AGI-2 evita que los modelos AI confíen en el poder informático de la "fuerza bruta" para resolver problemas, un defecto que reconoció en la primera prueba. Para abordar esto, ARC-AGI-2 introduce una métrica de eficiencia y requiere modelos para interpretar patrones sobre la mosca en lugar de depender de la memorización.
En una publicación de blog, el cofundador de la Fundación del Premio de ARC, Greg Kamradt, enfatizó que la inteligencia no se trata solo de resolver problemas o lograr puntajes altos. "La eficiencia con la que se adquieren e implementan esas capacidades es un componente crucial y definitorio", escribió. "La pregunta central que se hace no es solo, '¿Puede AI adquirir [la] habilidad para resolver una tarea?' Pero también, '¿A qué eficiencia o costo?' "
ARC-AGI-1 permaneció invicto durante unos cinco años hasta diciembre de 2024, cuando el modelo de razonamiento avanzado de OpenAI, O3, superó a todos los demás modelos de IA y un rendimiento humano coincidente. Sin embargo, el éxito de O3 en ARC-AGI-1 tuvo un costo significativo. La versión del modelo O3 de OpenAI, O3 (Low), que obtuvo un impresionante 75.7% en ARC-AGI-1, solo logró un miserable 4% en ARC-AGI-2, utilizando un valor informático por valor de $ 200 por tarea.

Comparación del rendimiento del modelo de IA fronteriza en ARC-AGI-1 y ARC-AGI-2. CRÉDITOS DE IMAGEN: Premio ARC La introducción de ARC-AGI-2 llega en un momento en que muchos en la industria de la tecnología están pidiendo nuevos puntos de referencia insaturados para medir el progreso de la IA. Thomas Wolf, cofundador de Hugging Face, le dijo recientemente a TechCrunch que la industria de la IA carece de pruebas suficientes para medir rasgos clave de inteligencia general artificial, como la creatividad.
Junto con el nuevo punto de referencia, la Fundación del Premio ARC anunció el concurso ARC Premio 2025, desafiando a los desarrolladores a lograr una precisión del 85% en la prueba ARC-AGI-2, mientras que gastaba solo $ 0.42 por tarea.
Artículo relacionado
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手
Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
加速回报定律解释了:AGI开发途径
在最近的一次采访中,埃隆·马斯克(Elon Musk)分享了他对人工通用情报(AGI)的时间表的乐观观点(AGI),并指出它可能是 *“ 3至6年” *。同样,Google DeepMind的首席执行官Demis Hassabis在《华尔街日报》的《一切事物》上表达了
埃里克·施密特(Eric Schmidt)反对阿吉·曼哈顿(Agi Manhattan)项目
在周三发布的一份政策文件中,前Google首席执行官埃里克·施密特(Eric Schmidt)以及Scale AI首席执行官Alexandr Wang和AI安全总监Dan Hendrycks中心和AI安全总监Dan Hendrycks中心,建议不要发起曼哈顿项目风格的计划,以开发AI Systems,以“超级人类”的智慧开发AI System
comentario (35)
0/200
StephenMartinez
10 de abril de 2025 15:27:48 GMT
The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!
0
StevenSanchez
10 de abril de 2025 15:27:48 GMT
Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!
0
AndrewHernández
10 de abril de 2025 15:27:48 GMT
Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!
0
BrianGarcia
10 de abril de 2025 15:27:48 GMT
O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!
0
GeorgeEvans
10 de abril de 2025 15:27:48 GMT
¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!
0
StevenLopez
11 de abril de 2025 00:18:46 GMT
This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?
0






La Fundación del Premio ARC, cofundada por el famoso investigador de IA François Chollet, recientemente presentó un nuevo punto de referencia llamado ARC-AGI-2 en una publicación de blog. Esta prueba tiene como objetivo superar los límites de la inteligencia general de la IA, y hasta ahora, está demostrando ser una nuez difícil de descifrar para la mayoría de los modelos de IA.
Según la tabla de clasificación del premio ARC, incluso los modelos de IA de "razonamiento" avanzados como O1-Pro de OpenAI y Deepseek's R1 solo administran puntajes entre 1% y 1.3%. Mientras tanto, los poderosos modelos no de razonamiento como GPT-4.5, el soneto Claude 3.7 y Gemini 2.0 Flash están rondando la marca del 1%.
Las pruebas de ARC-AGI desafían los sistemas AI con problemas similares a los rompecabezas, lo que requiere que identifiquen patrones visuales en cuadrículas de cuadrados de diferentes colores y generen la cuadrícula correcta de "respuesta". Estos problemas están diseñados para probar la capacidad de una IA para adaptarse a desafíos nuevos e invisibles.
Para establecer una línea de base humana, la Fundación del Premio ARC tenía más de 400 personas que tomaron la prueba ARC-AGI-2. En promedio, estos "paneles" de humanos lograron una tasa de éxito del 60%, superando significativamente los modelos de IA.
Chollet enfatizó que ARC-AGI-2 evita que los modelos AI confíen en el poder informático de la "fuerza bruta" para resolver problemas, un defecto que reconoció en la primera prueba. Para abordar esto, ARC-AGI-2 introduce una métrica de eficiencia y requiere modelos para interpretar patrones sobre la mosca en lugar de depender de la memorización.
En una publicación de blog, el cofundador de la Fundación del Premio de ARC, Greg Kamradt, enfatizó que la inteligencia no se trata solo de resolver problemas o lograr puntajes altos. "La eficiencia con la que se adquieren e implementan esas capacidades es un componente crucial y definitorio", escribió. "La pregunta central que se hace no es solo, '¿Puede AI adquirir [la] habilidad para resolver una tarea?' Pero también, '¿A qué eficiencia o costo?' "
ARC-AGI-1 permaneció invicto durante unos cinco años hasta diciembre de 2024, cuando el modelo de razonamiento avanzado de OpenAI, O3, superó a todos los demás modelos de IA y un rendimiento humano coincidente. Sin embargo, el éxito de O3 en ARC-AGI-1 tuvo un costo significativo. La versión del modelo O3 de OpenAI, O3 (Low), que obtuvo un impresionante 75.7% en ARC-AGI-1, solo logró un miserable 4% en ARC-AGI-2, utilizando un valor informático por valor de $ 200 por tarea.
Junto con el nuevo punto de referencia, la Fundación del Premio ARC anunció el concurso ARC Premio 2025, desafiando a los desarrolladores a lograr una precisión del 85% en la prueba ARC-AGI-2, mientras que gastaba solo $ 0.42 por tarea.



The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!




Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!




Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!




O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!




¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!




This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?












