

Новый тест AGI оказывается сложным, пензирует большинство моделей искусственного интеллекта
10 апреля 2025 г.
WillPerez
37
Фонд ARC Prize, соучрединный известным исследователем ИИ Франсуа Чолле, недавно обнародовал новый эталон под названием ARC-AGI-2 в блоге. Этот тест направлен на то, чтобы раздвинуть границы общего интеллекта ИИ, и до сих пор он оказывается жестким орехом для разрыва для большинства моделей ИИ.
Согласно The Arc Prize Soble, даже продвинутые «рассуждения», такие как Operai's O1-Pro и Deepseek R1, имеют только 1% до 1,3%. Между тем, мощные модели, не связанные с резом, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, колеблются вокруг отметки 1%.
Тесты ARC-AGI бросают вызов системам искусственного интеллекта с проблемами, похожими на головоломку, требуя от них идентификации визуальных закономерностей в сетках сетей разных цветов и генерировать правильную сетку «Ответ». Эти проблемы предназначены для проверки способности ИИ адаптироваться к новым, невидимым проблемам.
Чтобы установить базовую линию человека, в Фонде ARC приз за 400 человек сдают тест Arc-Agi-2. В среднем эти «панели» людей достигли 60% успеха, значительно превосходя модели ИИ.

Образец вопроса от Arc-Agi-. Франсуа Чоллет взял на себя X, чтобы утверждать, что Arc-Agi-2 является более точной мерой истинного интеллекта модели AI по сравнению с его предшественником Arc-Agi-1. Тесты фонда Arc Prize предназначены для оценки того, может ли ИИ эффективно изучать новые навыки, помимо данных обучения.
Чолле подчеркнул, что Arc-Agi-2 не позволяет моделям ИИ полагаться на вычислительную мощность «грубой силы» для решения проблем, который он признал в первом тесте. Чтобы решить эту проблему, Arc-Agi-2 представляет показатель эффективности и требует, чтобы модели интерпретировали закономерности на лету, а не полагаться на запоминание.
В сообщении в блоге соучредитель ARC Prize Грег Камрадт подчеркнул, что интеллект не просто решает проблемы или достижение высоких результатов. «Эффективность, с которой эти возможности приобретаются и развернуты, является важным, определяющим компонентом», - написал он. «Основной вопрос, который задается не просто:« Может ли ИИ приобрести [] навык для решения задачи? » Но также: «При какой эффективности или стоимости?»
Arc-Agi-1 оставался непобедимым в течение пяти лет до декабря 2024 года, когда усовершенствованная модель рассуждений Openai, O3, превзошла все остальные модели искусственного интеллекта и соответствовала человеческому исполнению. Тем не менее, успех O3 на Arc-Agi-1 составил значительную стоимость. Версия Openai's O3 Model, O3 (LOW), которая набрала впечатляющие 75,7% на ARC-AGI-1, управляла только 1% на ARC-AGI-2, используя вычислительную мощность на 200 долларов на задачу.

Сравнение производительности модели Frontier AI на ARC-AGI-1 и ARC-AGI-. Внедрение Arc-Agi-2 происходит в то время, когда многие в технологической индустрии призывают к новым ненасыщенным критериям для измерения прогресса ИИ. Томас Вольф, соучредитель Hugginging Face, недавно сказал TechCrunch, что в индустрии искусственного интеллекта не хватает достаточных тестов для измерения ключевых признаков искусственного общего интеллекта, таких как творчество.
Наряду с новым эталоном, фонд ARC Prize объявил о конкурсе ARC Prize 2025, вызывая разработчиков достичь 85% точности на тесте ARC-AGI-2, тратя только 0,42 долл. США на задачу.
Связанная статья
Openai反击:起诉Elon Musk涉嫌努力破坏AI竞争对手
Openai对其联合创始人Elon Musk及其竞争的AI公司Xai发起了激烈的法律反击。在他们正在进行的争执的戏剧性升级中,Openai指责马斯克发动了一场“无情”和“恶意”运动,破坏了他帮助创办的公司。根据法院D
加速回报定律解释了:AGI开发途径
在最近的一次采访中,埃隆·马斯克(Elon Musk)分享了他对人工通用情报(AGI)的时间表的乐观观点(AGI),并指出它可能是 *“ 3至6年” *。同样,Google DeepMind的首席执行官Demis Hassabis在《华尔街日报》的《一切事物》上表达了
埃里克·施密特(Eric Schmidt)反对阿吉·曼哈顿(Agi Manhattan)项目
在周三发布的一份政策文件中,前Google首席执行官埃里克·施密特(Eric Schmidt)以及Scale AI首席执行官Alexandr Wang和AI安全总监Dan Hendrycks中心和AI安全总监Dan Hendrycks中心,建议不要发起曼哈顿项目风格的计划,以开发AI Systems,以“超级人类”的智慧开发AI System
Комментарии (35)
StephenMartinez
10 апреля 2025 г., 15:27:48 GMT
The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!
0
StevenSanchez
10 апреля 2025 г., 15:27:48 GMT
Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!
0
AndrewHernández
10 апреля 2025 г., 15:27:48 GMT
Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!
0
BrianGarcia
10 апреля 2025 г., 15:27:48 GMT
O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!
0
GeorgeEvans
10 апреля 2025 г., 15:27:48 GMT
¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!
0
StevenLopez
11 апреля 2025 г., 0:18:46 GMT
This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?
0






Фонд ARC Prize, соучрединный известным исследователем ИИ Франсуа Чолле, недавно обнародовал новый эталон под названием ARC-AGI-2 в блоге. Этот тест направлен на то, чтобы раздвинуть границы общего интеллекта ИИ, и до сих пор он оказывается жестким орехом для разрыва для большинства моделей ИИ.
Согласно The Arc Prize Soble, даже продвинутые «рассуждения», такие как Operai's O1-Pro и Deepseek R1, имеют только 1% до 1,3%. Между тем, мощные модели, не связанные с резом, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, колеблются вокруг отметки 1%.
Тесты ARC-AGI бросают вызов системам искусственного интеллекта с проблемами, похожими на головоломку, требуя от них идентификации визуальных закономерностей в сетках сетей разных цветов и генерировать правильную сетку «Ответ». Эти проблемы предназначены для проверки способности ИИ адаптироваться к новым, невидимым проблемам.
Чтобы установить базовую линию человека, в Фонде ARC приз за 400 человек сдают тест Arc-Agi-2. В среднем эти «панели» людей достигли 60% успеха, значительно превосходя модели ИИ.
Чолле подчеркнул, что Arc-Agi-2 не позволяет моделям ИИ полагаться на вычислительную мощность «грубой силы» для решения проблем, который он признал в первом тесте. Чтобы решить эту проблему, Arc-Agi-2 представляет показатель эффективности и требует, чтобы модели интерпретировали закономерности на лету, а не полагаться на запоминание.
В сообщении в блоге соучредитель ARC Prize Грег Камрадт подчеркнул, что интеллект не просто решает проблемы или достижение высоких результатов. «Эффективность, с которой эти возможности приобретаются и развернуты, является важным, определяющим компонентом», - написал он. «Основной вопрос, который задается не просто:« Может ли ИИ приобрести [] навык для решения задачи? » Но также: «При какой эффективности или стоимости?»
Arc-Agi-1 оставался непобедимым в течение пяти лет до декабря 2024 года, когда усовершенствованная модель рассуждений Openai, O3, превзошла все остальные модели искусственного интеллекта и соответствовала человеческому исполнению. Тем не менее, успех O3 на Arc-Agi-1 составил значительную стоимость. Версия Openai's O3 Model, O3 (LOW), которая набрала впечатляющие 75,7% на ARC-AGI-1, управляла только 1% на ARC-AGI-2, используя вычислительную мощность на 200 долларов на задачу.
Наряду с новым эталоном, фонд ARC Prize объявил о конкурсе ARC Prize 2025, вызывая разработчиков достичь 85% точности на тесте ARC-AGI-2, тратя только 0,42 долл. США на задачу.



The new AGI test from the Arc Prize Foundation is seriously tough! It's great to see AI being pushed to its limits, but man, it's humbling to see how many models can't crack it. François Chollet's work is always pushing the envelope. Keep at it, AI devs!




Arc Prize Foundationの新しいAGIテストは本当に難しいですね!AIが限界まで押し上げられるのは素晴らしいですが、多くのモデルがこれを解けないのを見るのは謙虚な気持ちになります。フランソワ・ショレの仕事はいつも新しい領域を開拓しています。頑張ってください、AI開発者たち!




Arc Prize Foundation의 새로운 AGI 테스트는 정말 어렵네요! AI가 한계까지 밀어붙여지는 것은 멋지지만, 많은 모델이 이것을 풀지 못하는 것을 보는 것은 겸손해지게 합니다. 프랑수아 쇼레의 작업은 항상 새로운 영역을 개척하고 있습니다. 계속 노력하세요, AI 개발자들!




O novo teste de AGI da Arc Prize Foundation é seriamente difícil! É ótimo ver a IA sendo levada ao seu limite, mas cara, é humilhante ver quantos modelos não conseguem resolvê-lo. O trabalho de François Chollet está sempre expandindo os limites. Continuem assim, desenvolvedores de IA!




¡El nuevo test de AGI de la Fundación Arc Prize es seriamente difícil! Es genial ver cómo se empuja a la IA hasta sus límites, pero hombre, es humilde ver cuántos modelos no pueden resolverlo. El trabajo de François Chollet siempre está empujando el sobre. ¡Sigan adelante, desarrolladores de IA!




This ARC-AGI-2 test is seriously tough! I tried it with a bunch of AI models and most of them just couldn't handle it. It's cool to see how it challenges the limits of AI, but man, it's frustrating when even the smart ones fail. Maybe next time, right?












