Maison Nouvelles Gaia introduit une nouvelle référence dans la quête de la véritable intelligence au-delà de l'ARC-AGI

Gaia introduit une nouvelle référence dans la quête de la véritable intelligence au-delà de l'ARC-AGI

2 mai 2025
MatthewCarter
0

L'intelligence est partout, mais la mesurer avec précision donne envie d'essayer d'attraper un nuage à mains nues. Nous utilisons des tests et des références, comme les examens d'entrée au collège, pour avoir une idée approximative. Chaque année, les étudiants s'embrassent pour ces tests, parfois même un marquant 100% parfait. Mais ce score parfait signifie-t-il qu'ils possèdent tous le même niveau d'intelligence ou qu'ils ont atteint le sommet de leur potentiel mental? Bien sûr que non. Ces repères ne sont que des estimations approximatives, pas des indicateurs précis des véritables capacités de quelqu'un.

Dans le monde de l'IA générative, des repères tels que MMLU (Massive Multitasc Language Comprendre) ont été le choix pour évaluer les modèles à travers des questions à choix multiples dans divers domaines académiques. Bien qu'ils permettent des comparaisons faciles, ils ne capturent pas vraiment le spectre complet des capacités intelligentes.

Prenez Claude 3.5 Sonnet et GPT-4.5, par exemple. Ils pourraient marquer de la même manière sur MMLU, ce qui suggère qu'ils sont à égalité. Mais quiconque a réellement utilisé ces modèles sait que leurs performances réelles peuvent être très différentes.

Que signifie mesurer «l'intelligence» dans l'IA?

Avec le récent lancement de la référence ARC-AGI, conçue pour tester des modèles sur le raisonnement général et la résolution créative de problèmes, il y a eu une nouvelle vague de discussion sur ce que signifie mesurer "l'intelligence" dans l'IA. Tout le monde n'a pas encore eu l'occasion de plonger dans Arc-Agi, mais l'industrie bourdonne à ce sujet et à d'autres approches des tests. Chaque référence a sa place, et Arc-Agi est un pas dans la bonne direction.

Un autre développement passionnant est le «dernier examen de l'humanité», une référence complète avec 3 000 questions en plusieurs étapes évaluées par des pairs couvrant différentes disciplines. C'est un effort ambitieux pour pousser les systèmes d'IA au raisonnement au niveau des experts. Les premiers résultats montrent des progrès rapides, OpenAI aurait atteint un score de 26,6% un mois seulement après sa sortie. Mais comme les autres références, il se concentre principalement sur les connaissances et le raisonnement dans le vide, et non sur les compétences pratiques utilisant des outils qui sont vitales pour les applications d'IA du monde réel.

Prenez, par exemple, comment certains modèles top luttent avec des tâches simples comme compter le "R" dans "Strawberry" ou comparer 3,8 à 3.1111. Ces erreurs, que même un enfant ou une calculatrice de base pourrait éviter, mettent en évidence l'écart entre le succès de référence et la fiabilité du monde réel. C'est un rappel que l'intelligence ne concerne pas seulement les tests d'égage; Il s'agit de naviguer facilement sur la logique quotidienne.

La nouvelle norme pour mesurer la capacité d'IA

La nouvelle norme pour mesurer la capacité d'IA

Au fur et à mesure que les modèles IA ont évolué, les limites des références traditionnelles sont devenues plus apparentes. Par exemple, GPT-4, lorsqu'il est équipé d'outils, ne marque que 15% sur les tâches plus complexes du monde réel dans la référence GAIA, malgré ses scores élevés sur les tests à choix multiples.

Cet écart entre les performances de référence et les capacités pratiques est de plus en plus problématique car les systèmes d'IA passent des laboratoires de recherche aux applications commerciales. Les références traditionnelles testent la façon dont un modèle peut rappeler des informations, mais ignorent souvent les aspects clés de l'intelligence, tels que la capacité de collecter des données, d'exécuter du code, d'analyser les informations et de créer des solutions dans divers domaines.

Entrez Gaia, une nouvelle référence qui marque un changement significatif dans l'évaluation de l'IA. Développé à travers une collaboration entre des équipes de méta-fair, de méta-genaï, de vif du plan et d'autogpt, Gaia comprend 466 questions méticuleusement conçues à trois niveaux de difficulté. Ces questions testent un large éventail de compétences essentielles pour les applications d'IA du monde réel, y compris la navigation Web, la compréhension multimodale, l'exécution de code, la gestion des fichiers et le raisonnement complexe.

Les questions de niveau 1 nécessitent généralement environ 5 étapes et un outil à résoudre les humains. Les questions de niveau 2 nécessitent de 5 à 10 étapes et plusieurs outils, tandis que les questions de niveau 3 peuvent exiger jusqu'à 50 étapes et n'importe quel nombre d'outils. Cette structure reflète la complexité des problèmes commerciaux réels, où les solutions impliquent souvent plusieurs actions et outils.

En se concentrant sur la flexibilité plutôt que sur la complexité, un modèle d'IA a atteint un taux de précision de 75% sur Gaia, surperformant les leaders de l'industrie comme le magnétique-1 de Microsoft (38%) et l'agent Langfun de Google (49%). Ce succès provient de l'utilisation d'un mélange de modèles spécialisés pour la compréhension et le raisonnement audiovisuels, avec Sonnet 3.5 d'Anthropic comme modèle principal.

Ce changement dans l'évaluation de l'IA reflète une tendance plus large dans l'industrie: nous nous éloignons des applications SaaS autonomes vers des agents d'IA qui peuvent gérer plusieurs outils et flux de travail. Comme les entreprises dépendent de plus en plus de l'IA pour lutter contre les tâches complexes et en plusieurs étapes, des références comme GAIA offrent une mesure de capacité plus pertinente que les tests traditionnels à choix multiple.

L'avenir de l'évaluation de l'IA ne concerne pas les tests de connaissances isolés; Il s'agit d'évaluations complètes de la capacité de résolution de problèmes. Gaia établit une nouvelle référence pour mesurer la capacité d'IA - celle qui s'aligne mieux avec les défis et les opportunités du monde réel du déploiement de l'IA.

Sri Ambati est le fondateur et PDG de H2O.ai.

Article connexe
AI Startup Secures $7.5M to Revolutionize Commercial Insurance for 24M Underprotected Small Businesses in America AI Startup Secures $7.5M to Revolutionize Commercial Insurance for 24M Underprotected Small Businesses in America 1Fort, a New York-based startup, has secured a $7.5 million seed funding round to revolutionize how small businesses secure commercial insurance through its AI-driven platform. With a staggering 200% month-over-month revenue growth in 2024, 1Fort is set to overhaul the outdated manual processes that
Meta Defends Llama 4 Release, Cites Bugs as Cause of Mixed Quality Reports Meta Defends Llama 4 Release, Cites Bugs as Cause of Mixed Quality Reports Over the weekend, Meta, the powerhouse behind Facebook, Instagram, WhatsApp, and Quest VR, surprised everyone by unveiling their latest AI language model, Llama 4. Not just one, but three new versions were introduced, each boasting enhanced capabilities thanks to the "Mixture-of-Experts" architectur
Google launches Gemini in Android Studio for Businesses, making it easier for devs to design work apps Google launches Gemini in Android Studio for Businesses, making it easier for devs to design work apps Apple may still rule the U.S. smartphone market, but Google's Android OS has won over enterprises and businesses with its flexibility and affordability. A recent Stratix survey revealed that a whopping 60% of corporate devices now run on Android tech. And Google isn't stopping there; they're set on
Commentaires (0)
0/200
Back to Top
OR