Meta FAIR dévoile cinq avancées qui font progresser l'IA de type humain

Maison

Nouvelles

28 décembre 2025

BillyAdams

130

# ai # agents # meta # robotics

L'équipe Fundamental AI Research (FAIR) de Meta a dévoilé cinq nouveaux projets qui font progresser ses travaux dans le domaine de l'intelligence artificielle avancée (AMI).

Ces dernières publications se concentrent sur l'amélioration de la perception de l'IA (la manière dont les machines traitent les informations sensorielles) ainsi que sur les progrès réalisés dans les modèles linguistiques, la robotique et les agents IA collaboratifs.

Meta a expliqué que son objectif était de construire des machines « capables d'acquérir, de traiter et d'interpréter les données sensorielles de notre monde, et d'utiliser ces informations pour prendre des décisions avec une intelligence et une rapidité similaires à celles des humains ».

Les cinq nouvelles initiatives représentent une série d'efforts interdépendants visant à atteindre cet objectif ambitieux.

Perception Encoder : affiner l'intelligence visuelle de l'IA

L'une des pierres angulaires des nouvelles versions est le Perception Encoder, un encodeur visuel à grande échelle conçu pour offrir des performances exceptionnelles dans diverses tâches liées aux images et aux vidéos.

Les encodeurs de vision agissent comme les « yeux » des systèmes d'IA, leur permettant de comprendre les informations visuelles.

Meta souligne la difficulté croissante de créer des encodeurs pour l'IA avancée, qui doivent relier la vision au langage, traiter efficacement les images et les vidéos, et rester fiables dans des conditions difficiles, y compris en cas d'attaques adversaires.

Selon Meta, l'encodeur idéal devrait reconnaître un large éventail de concepts tout en captant les détails les plus fins, comme remarquer « une raie cachée sous le fond marin, identifier un petit chardonneret dans l'arrière-plan d'une image ou détecter un agouti se déplaçant rapidement sur une caméra de surveillance nocturne de la faune sauvage ».

Meta affirme que le Perception Encoder offre « des performances exceptionnelles en matière de classification et de récupération d'images et de vidéos sans apprentissage préalable, surpassant tous les modèles open source et propriétaires actuels pour ces tâches ».

De plus, ses capacités perceptives amélioreraient les performances des tâches linguistiques.

Associé à un modèle linguistique de grande taille (LLM), l'encodeur surpasserait les autres encodeurs visuels dans des domaines tels que la réponse à des questions visuelles (VQA), le sous-titrage, la compréhension de documents et l'ancrage (liaison du texte à des parties spécifiques d'une image). Il améliorerait également les performances dans des tâches où les LLM ont généralement des difficultés, telles que la compréhension des relations spatiales (par exemple, « si un objet se trouve derrière un autre ») ou le mouvement de la caméra par rapport à un objet.

« Alors que l'encodeur Perception commence à être intégré dans de nouvelles applications, nous sommes impatients de voir comment ses capacités visuelles avancées vont alimenter des systèmes d'IA encore plus sophistiqués », a commenté Meta.

Modèle linguistique de perception (PLM) : faire progresser la recherche ouverte sur la vision et le langage

Le Perception Language Model (PLM) fonctionne en parallèle avec l'encodeur. Il s'agit d'un modèle vision-langage ouvert et reproductible, conçu pour des tâches de reconnaissance visuelle complexes.

Le PLM a été entraîné à l'aide de données synthétiques exhaustives et de jeux de données ouverts sur la vision-langage, en évitant délibérément les connaissances issues de modèles propriétaires externes.

Conscient des lacunes des données existantes en matière de compréhension vidéo, l'équipe FAIR a rassemblé 2,5 millions de nouveaux échantillons étiquetés par des humains, axés sur les réponses détaillées à des questions vidéo et le sous-titrage spatio-temporel. Meta affirme qu'il s'agit du « plus grand ensemble de données de ce type à ce jour ».

Le PLM est disponible en versions à 1, 3 et 8 milliards de paramètres afin de répondre aux besoins de la recherche universitaire qui exige une transparence totale.

En plus des modèles, Meta lance PLM-VideoBench, un nouveau benchmark spécialement conçu pour tester des capacités souvent négligées par les benchmarks existants, à savoir « la compréhension fine des activités et le raisonnement spatio-temporel ».

Meta espère que la mise à disposition de modèles ouverts, d'un vaste ensemble de données et d'un benchmark ambitieux renforcera la communauté open source.

Meta Locate 3D : fournir aux robots une conscience situationnelle

Meta Locate 3D fait le lien entre les commandes vocales et les actions physiques. Ce modèle de bout en bout est conçu pour permettre aux robots de trouver avec précision des objets dans un espace 3D à partir de requêtes en langage naturel ouvert.

Meta Locate 3D traite les nuages de points 3D directement à partir de capteurs RVB-D (comme ceux équipant certains robots ou caméras à détection de profondeur). À partir d'une invite textuelle, telle que « vase à fleurs près du meuble TV », le système analyse les relations spatiales et le contexte pour identifier l'instance d'objet correcte, en la différenciant, par exemple, d'un « vase sur la table ».

Le système se compose de trois éléments principaux : une étape de prétraitement qui convertit les caractéristiques 2D en nuages de points 3D caractérisés ; l'encodeur 3D-JEPA (un modèle pré-entraîné qui crée une représentation contextualisée du monde en 3D) ; et le décodeur Locate 3D, qui utilise la représentation 3D et la requête linguistique pour générer des cadres de sélection et des masques pour les objets spécifiés.

Parallèlement au modèle, Meta publie un nouvel ensemble de données substantiel pour la localisation d'objets basé sur des expressions de référence. Il comprend 130 000 annotations linguistiques réparties sur 1 346 scènes provenant des ensembles de données ARKitScenes, ScanNet et ScanNet++, doublant ainsi les données annotées existantes dans ce domaine.

Meta considère cette technologie comme essentielle pour développer des systèmes robotiques plus performants, notamment son propre projet de robot PARTNR, facilitant une interaction et un travail d'équipe plus naturels entre l'homme et la machine.

Dynamic Byte Latent Transformer : modélisation linguistique efficace et robuste

À la suite de recherches publiées fin 2024, Meta publie désormais les poids du modèle pour son Dynamic Byte Latent Transformer à 8 milliards de paramètres.

Cette architecture marque une rupture avec les modèles linguistiques traditionnels basés sur la tokenisation, fonctionnant directement au niveau des octets. Meta affirme que cette méthode offre des performances similaires à grande échelle tout en apportant des gains significatifs en termes d'efficacité et de robustesse de l'inférence.

Les LLM conventionnels divisent le texte en « tokens », ce qui peut poser des problèmes en cas de fautes d'orthographe, de mots nouveaux ou d'entrées adversaires. Les modèles au niveau de l'octet traitent les octets bruts, ce qui peut offrir une plus grande résilience.

Meta rapporte que le Dynamic Byte Latent Transformer « surpasse les modèles basés sur la tokenisation dans diverses tâches, affichant un avantage moyen en termes de robustesse de +7 points (sur HellaSwag perturbé) et atteignant jusqu'à +55 points sur les tâches du benchmark CUTE de compréhension des tokens ».

En publiant les poids ainsi que la base de code précédemment partagée, Meta encourage la communauté des chercheurs à explorer cette approche alternative de la modélisation du langage.

Collaborative Reasoner : faire progresser les agents IA socialement intelligents

La dernière version, Collaborative Reasoner, relève le défi complexe de créer des agents IA capables de travailler efficacement avec des humains ou d'autres IA.

Meta note que la collaboration humaine produit souvent de meilleurs résultats et vise à doter l'IA de capacités similaires pour des tâches telles que l'aide aux devoirs ou la préparation d'un entretien d'embauche.

Une telle collaboration nécessite non seulement la résolution de problèmes, mais aussi des compétences sociales telles que la communication, l'empathie, la capacité à donner du feedback et à comprendre le point de vue des autres (théorie de l'esprit), qui se développent généralement au fil de multiples échanges conversationnels.

Les méthodes actuelles de formation et d'évaluation des LLM négligent souvent ces dimensions sociales et collaboratives. De plus, la collecte de données conversationnelles pertinentes est coûteuse et difficile.

Collaborative Reasoner fournit un cadre permettant d'évaluer et d'améliorer ces compétences. Il comprend des tâches axées sur des objectifs qui nécessitent un raisonnement en plusieurs étapes, réalisé grâce à un dialogue entre deux agents. Ce cadre teste des capacités telles que la désaccord constructif, la persuasion et la recherche d'une solution optimale pour les deux parties.

Les évaluations de Meta ont montré que les modèles actuels ne parviennent souvent pas à utiliser de manière cohérente la collaboration pour améliorer les résultats. Pour remédier à cela, ils proposent une technique d'auto-amélioration utilisant des données d'interaction synthétiques dans lesquelles un agent LLM collabore avec lui-même.

La génération de ces données à grande échelle est rendue possible par un nouveau moteur de service de modèles haute performance appelé Matrix. L'utilisation de cette méthode pour des tâches de raisonnement mathématique, scientifique et social aurait permis d'obtenir des améliorations allant jusqu'à 29,4 % par rapport aux performances standard d'une seule chaîne de pensée LLM.

En ouvrant le code source de la génération de données et du pipeline de modélisation, Meta vise à accélérer la recherche dans le développement d'« agents sociaux capables de s'associer avec des humains et d'autres agents ».

Ensemble, ces cinq publications soulignent l'investissement substantiel et continu de Meta dans la recherche fondamentale en IA, en particulier dans la création des composants fondamentaux pour des machines capables de percevoir, de comprendre et d'interagir avec le monde de manière plus humaine.

Voir aussi : Meta va former des modèles d'IA à partir des données des utilisateurs de l'UE

Vous souhaitez en savoir plus sur l'IA et le big data auprès des leaders du secteur ? Découvrez l'AI & Big Data Expo qui se tiendra à Amsterdam, en Californie et à Londres. Cet événement complet se déroule en même temps que d'autres événements majeurs, notamment l'Intelligent Automation Conference, BlockX, la Digital Transformation Week et la Cyber Security & Cloud Expo.

Découvrez ici d'autres événements et webinaires sur les technologies d'entreprise organisés par TechForge.

Article connexe

Notion transforme son espace de travail en une plateforme centralisée pour les agents IA Notion, l'éditeur de logiciels de productivité, entre dans l'ère des agents.Lors d'une annonce de produit diffusée en direct mercredi, Notion — surtout connu pour son application de pri

ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs ElevenLabs, la société spécialisée dans l'IA vocale, a révélé le nom d'investisseurs supplémentaires ayant participé à son tour de table de série D de 500 millions de dollars, initialement annoncé en

WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié

Recommandations de sujets spéciaux liés

en écrivant

Les meilleurs outils gratuits d'écriture IA indétectables : transformez des brouillons robotiques en textes naturels, dignes d'un humain

Découvrez les meilleurs générateurs de texte IA gratuits et indétectables de 2026 sur XIX.AI. Notre sélection rigoureuse des meilleurs outils vous aide à transformer des brouillons robotiques en textes naturels, dignes d'un humain. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Prenez dès aujourd'hui une longueur d'avance en matière de rédaction IA.

10 outils

xix.ai

Édition d'images

Generateurs d'art par intelligence artificielle pour storyboards de courts drames : personnages de fantasy et de romance urbaine

2026 : Découvrez les meilleurs générateurs d’art artificiel pour les storyboards de courts métrages. Notre liste sélectionnée présente des outils hautement réputés pour créer des personnages captivants dans les genres fantasy et romance urbaine. Comparez les options gratuites et payantes, consultez les résultats de tests réels et trouvez le partenaire créatif idéal pour vous. Recevez chaque semaine des classements mis à jour et des conseils d’experts de XIX.AI. Commencez dès aujourd’hui à visualiser votre histoire !

10 outils

xix.ai

en écrivant

Meilleurs outils d’scriptage AI pour la radio et la production de podcasts : rédiger des publicités audio captivantes

Découvrez les 20 meilleurs outils de scriptage AI pour la radio et la production de podcasts en 2026 sur XIX.AI. Notre liste, soigneusement sélectionnée et hautement réputée, propose des solutions puissantes et révolutionnaires pour créer rapidement des publicités audio captivantes. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mises à jour chaque semaine. Développez votre potentiel créatif dès aujourd’hui !

10 outils

xix.ai

Entreprise

Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité

Découvrez les meilleurs logiciels d'analyse de contrats basés sur l'IA pour 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée regroupe des outils performants qui détectent instantanément les failles juridiques et les risques de non-conformité. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez la solution qui changera la donne pour une analyse de contrats sécurisée et efficace. Découvrez dès maintenant le guide complet.

10 outils

xix.ai

Création d'animations

Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées

Découvrez les meilleurs générateurs d’animés AI de 2026 pour la création de doublages en chinois. Notre liste, sélectionnée avec soin, propose des outils puissants pour créer des personnages incroyables pour des romans web et des avatars de comics. Comparez les options gratuites et payantes grâce à des tests réels. Trouvez le partenaire créatif idéal et donnez vie à vos histoires dès aujourd’hui sur XIX.AI.

10 outils

xix.ai

Création de bande dessinée

Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils

xix.ai

commentaires (1)

0/500

Veuillez vous connecter d'abord

StevenMartin

1 janvier 2026 13:30:56 UTC+01:00

So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠

Top nouvelles

AI Builder et Power Automate Révolutionnent la Synthèse de Documents Podcast Hosts Of NoteBookLM maintenant disponible pour les interviews La Chine dévoile ses normes nationales relatives aux robots humanoïdes et à l'intelligence incarnée L'adoption de l'IA par les entreprises plafonne, selon les données de Ramp Tutoriel Créateur d'Images Bing : Guide de Génération d'Art IA Apprenez à créer de la musique AI en utilisant votre voix: un tutoriel Suno étape par étape iMyFone MagicMic : Revue et tutoriel sur le changeur de voix AI en temps réel Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives DeepSeek V4 s'impose comme une technologie multimodale révolutionnaire dans le domaine de l'IA Embodied Intelligence dévoile la première norme sectorielle visant à freiner la croissance anarchique

Plus

En vedette