option
Maison
Nouvelles
Gaia introduit une nouvelle référence dans la quête de la véritable intelligence au-delà de l'ARC-AGI

Gaia introduit une nouvelle référence dans la quête de la véritable intelligence au-delà de l'ARC-AGI

2 mai 2025
65

L'intelligence est partout, mais la mesurer avec précision donne envie d'essayer d'attraper un nuage à mains nues. Nous utilisons des tests et des références, comme les examens d'entrée au collège, pour avoir une idée approximative. Chaque année, les étudiants s'embrassent pour ces tests, parfois même un marquant 100% parfait. Mais ce score parfait signifie-t-il qu'ils possèdent tous le même niveau d'intelligence ou qu'ils ont atteint le sommet de leur potentiel mental? Bien sûr que non. Ces repères ne sont que des estimations approximatives, pas des indicateurs précis des véritables capacités de quelqu'un.

Dans le monde de l'IA générative, des repères tels que MMLU (Massive Multitasc Language Comprendre) ont été le choix pour évaluer les modèles à travers des questions à choix multiples dans divers domaines académiques. Bien qu'ils permettent des comparaisons faciles, ils ne capturent pas vraiment le spectre complet des capacités intelligentes.

Prenez Claude 3.5 Sonnet et GPT-4.5, par exemple. Ils pourraient marquer de la même manière sur MMLU, ce qui suggère qu'ils sont à égalité. Mais quiconque a réellement utilisé ces modèles sait que leurs performances réelles peuvent être très différentes.

Que signifie mesurer «l'intelligence» dans l'IA?

Avec le récent lancement de la référence ARC-AGI, conçue pour tester des modèles sur le raisonnement général et la résolution créative de problèmes, il y a eu une nouvelle vague de discussion sur ce que signifie mesurer "l'intelligence" dans l'IA. Tout le monde n'a pas encore eu l'occasion de plonger dans Arc-Agi, mais l'industrie bourdonne à ce sujet et à d'autres approches des tests. Chaque référence a sa place, et Arc-Agi est un pas dans la bonne direction.

Un autre développement passionnant est le «dernier examen de l'humanité», une référence complète avec 3 000 questions en plusieurs étapes évaluées par des pairs couvrant différentes disciplines. C'est un effort ambitieux pour pousser les systèmes d'IA au raisonnement au niveau des experts. Les premiers résultats montrent des progrès rapides, OpenAI aurait atteint un score de 26,6% un mois seulement après sa sortie. Mais comme les autres références, il se concentre principalement sur les connaissances et le raisonnement dans le vide, et non sur les compétences pratiques utilisant des outils qui sont vitales pour les applications d'IA du monde réel.

Prenez, par exemple, comment certains modèles top luttent avec des tâches simples comme compter le "R" dans "Strawberry" ou comparer 3,8 à 3.1111. Ces erreurs, que même un enfant ou une calculatrice de base pourrait éviter, mettent en évidence l'écart entre le succès de référence et la fiabilité du monde réel. C'est un rappel que l'intelligence ne concerne pas seulement les tests d'égage; Il s'agit de naviguer facilement sur la logique quotidienne.

La nouvelle norme pour mesurer la capacité d'IA

La nouvelle norme pour mesurer la capacité d'IA

Au fur et à mesure que les modèles IA ont évolué, les limites des références traditionnelles sont devenues plus apparentes. Par exemple, GPT-4, lorsqu'il est équipé d'outils, ne marque que 15% sur les tâches plus complexes du monde réel dans la référence GAIA, malgré ses scores élevés sur les tests à choix multiples.

Cet écart entre les performances de référence et les capacités pratiques est de plus en plus problématique car les systèmes d'IA passent des laboratoires de recherche aux applications commerciales. Les références traditionnelles testent la façon dont un modèle peut rappeler des informations, mais ignorent souvent les aspects clés de l'intelligence, tels que la capacité de collecter des données, d'exécuter du code, d'analyser les informations et de créer des solutions dans divers domaines.

Entrez Gaia, une nouvelle référence qui marque un changement significatif dans l'évaluation de l'IA. Développé à travers une collaboration entre des équipes de méta-fair, de méta-genaï, de vif du plan et d'autogpt, Gaia comprend 466 questions méticuleusement conçues à trois niveaux de difficulté. Ces questions testent un large éventail de compétences essentielles pour les applications d'IA du monde réel, y compris la navigation Web, la compréhension multimodale, l'exécution de code, la gestion des fichiers et le raisonnement complexe.

Les questions de niveau 1 nécessitent généralement environ 5 étapes et un outil à résoudre les humains. Les questions de niveau 2 nécessitent de 5 à 10 étapes et plusieurs outils, tandis que les questions de niveau 3 peuvent exiger jusqu'à 50 étapes et n'importe quel nombre d'outils. Cette structure reflète la complexité des problèmes commerciaux réels, où les solutions impliquent souvent plusieurs actions et outils.

En se concentrant sur la flexibilité plutôt que sur la complexité, un modèle d'IA a atteint un taux de précision de 75% sur Gaia, surperformant les leaders de l'industrie comme le magnétique-1 de Microsoft (38%) et l'agent Langfun de Google (49%). Ce succès provient de l'utilisation d'un mélange de modèles spécialisés pour la compréhension et le raisonnement audiovisuels, avec Sonnet 3.5 d'Anthropic comme modèle principal.

Ce changement dans l'évaluation de l'IA reflète une tendance plus large dans l'industrie: nous nous éloignons des applications SaaS autonomes vers des agents d'IA qui peuvent gérer plusieurs outils et flux de travail. Comme les entreprises dépendent de plus en plus de l'IA pour lutter contre les tâches complexes et en plusieurs étapes, des références comme GAIA offrent une mesure de capacité plus pertinente que les tests traditionnels à choix multiple.

L'avenir de l'évaluation de l'IA ne concerne pas les tests de connaissances isolés; Il s'agit d'évaluations complètes de la capacité de résolution de problèmes. Gaia établit une nouvelle référence pour mesurer la capacité d'IA - celle qui s'aligne mieux avec les défis et les opportunités du monde réel du déploiement de l'IA.

Sri Ambati est le fondateur et PDG de H2O.ai.

Article connexe
谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌AI躍升內幕:Gemini 2.5 思維更深、表達更智能且編碼更快 谷歌朝著通用AI助手的願景邁進一步在今年的Google I/O大會上,該公司揭示了其Gemini 2.5系列的重大升級,特別是在多個維度上提升其能力。最新的版本——Gemini 2.5 Flash和2.5 Pro——現在比以往更加聰明和高效。這些進步使谷歌更接近實現其創造通用AI助手的願景,這個助手能夠無縫理解情境、計劃並執行任務。### Gemini 2.
深度認知發布開源AI模型,已名列前茅 深度認知發布開源AI模型,已名列前茅 深度思睿推出革命性的人工智能模型旧金山一家尖端的人工智能研究初创公司深度思睿(Deep Cogito)正式发布了其首批开源大型语言模型(LLMs),命名为思睿v1。这些模型经过微调自Meta的Llama 3.2,具备混合推理能力,能够快速响应或进行内省思考——这一功能让人联想到OpenAI的“o”系列和DeepSeek R1。深度思睿旨在通过在其模型中促进迭
微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟在Build 2025大會上宣布推出超過50款AI工具打造『主動網路』 微軟於Build大會揭開開放式自主網路願景今天早上,微軟在其年度Build大會上發表了一項大膽宣言:「開放式自主網路」的黎明已經到來。在超過50項公告的廣泛陣容中,這家科技巨頭概述了一項全面策略,將自己置於這個轉型運動的核心位置。從GitHub到Azure,從Windows到Microsoft 365,每條產品線都收到了旨在推動AI代理技術進步的更新。這些代
commentaires (0)
0/200
Retour en haut
OR