Gaia представляет новый эталон в поисках истинного интеллекта за пределами Arc-Agi
Интеллект повсюду, но оценить его точно ощущается как попытка поймать облако голыми руками. Мы используем тесты и тесты, такие как входные экзамены в колледже, чтобы получить приблизительную идею. Каждый год студенты бьют за эти тесты, иногда даже набирая идеальные 100%. Но означает ли этот идеальный балл, все они обладают одинаковым уровнем интеллекта или что они достигли пика своего психического потенциала? Конечно, нет. Эти тесты являются просто грубыми оценками, а не точными показателями чьих -то истинных способностей.
В мире генеративного искусственного интеллекта критерии, такие как MMLU (массовое многозадачное понимание языка), были направлены на оценку моделей с помощью вопросов с множественным выбором в различных академических областях. Несмотря на то, что они допускают легкие сравнения, они на самом деле не отражают полный спектр интеллектуальных возможностей.
Возьмите, например, Claude 3.5 Sonnet и GPT-4.5. Они могут забить аналогичным образом на MMLU, предполагая, что они находятся на одном уровне. Но любой, кто на самом деле использовал эти модели, знает, что их реальная производительность может быть совсем другим.
Что значит измерить «интеллект» в ИИ?
Благодаря недавнему запуску теста Arc-Agi, предназначенного для тестирования моделей об общих рассуждениях и творческом решении проблем, была свежая волна обсуждения о том, что значит измерить «интеллект» в ИИ. Не у всех был шанс погрузиться в Arc-Agi, но отрасль гудит по поводу этого и других новых подходов к тестированию. У каждого теста есть свое место, а Arc-Agi-это шаг в правильном направлении.
Еще одним захватывающим событием является «Последний экзамен человечества», всеобъемлющий эталон с 3000 рецензируемыми многоэтапными вопросами, охватывающими различные дисциплины. Это амбициозная попытка подтолкнуть системы ИИ к рассуждениям на уровне экспертов. Ранние результаты показывают быстрый прогресс, так как OpenAI, как сообщается, достигнет 26,6%, всего через месяц после его выпуска. Но, как и другие тесты, он фокусируется в основном на знаниях и рассуждениях в вакууме, а не на практических навыках, использующих инструменты, которые жизненно важны для реальных приложений ИИ.
Возьмем, к примеру, как некоторые лучшие модели борются с простыми задачами, такими как подсчет «R» в «Клубнике» или сравнение от 3,8 до 3.1111. Эти ошибки, которых могли бы избежать даже ребенка или базового калькулятора, подчеркивают разрыв между успешным показателем и надежностью реальной жизни. Это напоминание о том, что интеллект - это не только тесты ACING; Речь идет о навигации на повседневную логику с легкостью.

Новый стандарт для измерения возможностей ИИ
По мере развития моделей ИИ ограничения традиционных критериев стали более очевидными. Например, GPT-4, когда он оснащен инструментами, набирает всего около 15% по более сложным, реальным задачам в тесте GAIA, несмотря на его высокие оценки по тестам с множественным вариантом.
Это несоответствие между показателями эффективности и практическими возможностями становится все более проблематичным, поскольку переход систем AI от исследовательских лабораторий к бизнес -приложениям. Традиционные тесты проверяют, насколько хорошо модель может вспомнить информацию, но часто упускает из виду ключевые аспекты интеллекта, такие как возможность собирать данные, запускать код, анализировать информацию и создавать решения в различных областях.
Введите Gaia, новый эталон, который знаменует собой значительный сдвиг в оценке ИИ. Разработанный благодаря сотрудничеству между командами из Meta-Fair, Meta-Genai, Huggingface и Autogpt, GAIA включает в себя 466 тщательно продуманных вопросов на трех уровнях сложности. Эти вопросы проверяют широкий спектр навыков, необходимые для реальных приложений ИИ, включая просмотр веб-страниц, многомодальное понимание, выполнение кода, обработку файлов и сложные рассуждения.
Вопросы уровня 1, как правило, требуют около 5 шагов и один инструмент для решения людей. Вопросы уровня 2 требуют от 5 до 10 шагов и несколько инструментов, в то время как вопросы уровня 3 могут потребовать до 50 шагов и любого количества инструментов. Эта структура отражает сложность фактических бизнес -проблем, где решения часто включают несколько действий и инструментов.
Сосредоточив внимание на гибкости, а не только на сложности, модель ИИ достигла 75%точности точности в GAIA, опережая лидеров отрасли, таких как Microsoft Magnetic-1 (38%) и агент Google Langfun (49%). Этот успех происходит из-за использования сочетания специализированных моделей для аудиовизуального понимания и рассуждений, а в качестве основной модели Anpropic's Sonnet 3.5.
Этот сдвиг в оценке искусственного интеллекта отражает более широкую тенденцию в отрасли: мы уходим от автономных приложений SaaS к агентам искусственного интеллекта, которые могут управлять несколькими инструментами и рабочими процессами. Поскольку предприятия все чаще зависят от ИИ для решения сложных, многоэтапных задач, тесты, такие как GAIA, предлагают более релевантную меру возможности, чем традиционные тесты с множественным выбором.
Будущее оценки ИИ не о изолированных тестах знаний; Речь идет о комплексных оценках способности решать проблемы. GAIA устанавливает новый эталон для измерения возможностей ИИ-тот, который лучше соответствует реальным проблемам и возможностям развертывания ИИ.
Шри Амбати является основателем и генеральным директором H2O.ai.
Связанная статья
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快
谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅
深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』
微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
Комментарии (0)
Интеллект повсюду, но оценить его точно ощущается как попытка поймать облако голыми руками. Мы используем тесты и тесты, такие как входные экзамены в колледже, чтобы получить приблизительную идею. Каждый год студенты бьют за эти тесты, иногда даже набирая идеальные 100%. Но означает ли этот идеальный балл, все они обладают одинаковым уровнем интеллекта или что они достигли пика своего психического потенциала? Конечно, нет. Эти тесты являются просто грубыми оценками, а не точными показателями чьих -то истинных способностей.
В мире генеративного искусственного интеллекта критерии, такие как MMLU (массовое многозадачное понимание языка), были направлены на оценку моделей с помощью вопросов с множественным выбором в различных академических областях. Несмотря на то, что они допускают легкие сравнения, они на самом деле не отражают полный спектр интеллектуальных возможностей.
Возьмите, например, Claude 3.5 Sonnet и GPT-4.5. Они могут забить аналогичным образом на MMLU, предполагая, что они находятся на одном уровне. Но любой, кто на самом деле использовал эти модели, знает, что их реальная производительность может быть совсем другим.
Что значит измерить «интеллект» в ИИ?
Благодаря недавнему запуску теста Arc-Agi, предназначенного для тестирования моделей об общих рассуждениях и творческом решении проблем, была свежая волна обсуждения о том, что значит измерить «интеллект» в ИИ. Не у всех был шанс погрузиться в Arc-Agi, но отрасль гудит по поводу этого и других новых подходов к тестированию. У каждого теста есть свое место, а Arc-Agi-это шаг в правильном направлении.
Еще одним захватывающим событием является «Последний экзамен человечества», всеобъемлющий эталон с 3000 рецензируемыми многоэтапными вопросами, охватывающими различные дисциплины. Это амбициозная попытка подтолкнуть системы ИИ к рассуждениям на уровне экспертов. Ранние результаты показывают быстрый прогресс, так как OpenAI, как сообщается, достигнет 26,6%, всего через месяц после его выпуска. Но, как и другие тесты, он фокусируется в основном на знаниях и рассуждениях в вакууме, а не на практических навыках, использующих инструменты, которые жизненно важны для реальных приложений ИИ.
Возьмем, к примеру, как некоторые лучшие модели борются с простыми задачами, такими как подсчет «R» в «Клубнике» или сравнение от 3,8 до 3.1111. Эти ошибки, которых могли бы избежать даже ребенка или базового калькулятора, подчеркивают разрыв между успешным показателем и надежностью реальной жизни. Это напоминание о том, что интеллект - это не только тесты ACING; Речь идет о навигации на повседневную логику с легкостью.
Новый стандарт для измерения возможностей ИИ
По мере развития моделей ИИ ограничения традиционных критериев стали более очевидными. Например, GPT-4, когда он оснащен инструментами, набирает всего около 15% по более сложным, реальным задачам в тесте GAIA, несмотря на его высокие оценки по тестам с множественным вариантом.
Это несоответствие между показателями эффективности и практическими возможностями становится все более проблематичным, поскольку переход систем AI от исследовательских лабораторий к бизнес -приложениям. Традиционные тесты проверяют, насколько хорошо модель может вспомнить информацию, но часто упускает из виду ключевые аспекты интеллекта, такие как возможность собирать данные, запускать код, анализировать информацию и создавать решения в различных областях.
Введите Gaia, новый эталон, который знаменует собой значительный сдвиг в оценке ИИ. Разработанный благодаря сотрудничеству между командами из Meta-Fair, Meta-Genai, Huggingface и Autogpt, GAIA включает в себя 466 тщательно продуманных вопросов на трех уровнях сложности. Эти вопросы проверяют широкий спектр навыков, необходимые для реальных приложений ИИ, включая просмотр веб-страниц, многомодальное понимание, выполнение кода, обработку файлов и сложные рассуждения.
Вопросы уровня 1, как правило, требуют около 5 шагов и один инструмент для решения людей. Вопросы уровня 2 требуют от 5 до 10 шагов и несколько инструментов, в то время как вопросы уровня 3 могут потребовать до 50 шагов и любого количества инструментов. Эта структура отражает сложность фактических бизнес -проблем, где решения часто включают несколько действий и инструментов.
Сосредоточив внимание на гибкости, а не только на сложности, модель ИИ достигла 75%точности точности в GAIA, опережая лидеров отрасли, таких как Microsoft Magnetic-1 (38%) и агент Google Langfun (49%). Этот успех происходит из-за использования сочетания специализированных моделей для аудиовизуального понимания и рассуждений, а в качестве основной модели Anpropic's Sonnet 3.5.
Этот сдвиг в оценке искусственного интеллекта отражает более широкую тенденцию в отрасли: мы уходим от автономных приложений SaaS к агентам искусственного интеллекта, которые могут управлять несколькими инструментами и рабочими процессами. Поскольку предприятия все чаще зависят от ИИ для решения сложных, многоэтапных задач, тесты, такие как GAIA, предлагают более релевантную меру возможности, чем традиционные тесты с множественным выбором.
Будущее оценки ИИ не о изолированных тестах знаний; Речь идет о комплексных оценках способности решать проблемы. GAIA устанавливает новый эталон для измерения возможностей ИИ-тот, который лучше соответствует реальным проблемам и возможностям развертывания ИИ.
Шри Амбати является основателем и генеральным директором H2O.ai.












