Meta FAIR dévoile cinq avancées qui font progresser l'IA de type humain
L'équipe Fundamental AI Research (FAIR) de Meta a dévoilé cinq nouveaux projets qui font progresser ses travaux dans le domaine de l'intelligence artificielle avancée (AMI).
Ces dernières publications se concentrent sur l'amélioration de la perception de l'IA (la manière dont les machines traitent les informations sensorielles) ainsi que sur les progrès réalisés dans les modèles linguistiques, la robotique et les agents IA collaboratifs.
Meta a expliqué que son objectif était de construire des machines « capables d'acquérir, de traiter et d'interpréter les données sensorielles de notre monde, et d'utiliser ces informations pour prendre des décisions avec une intelligence et une rapidité similaires à celles des humains ».
Les cinq nouvelles initiatives représentent une série d'efforts interdépendants visant à atteindre cet objectif ambitieux.
Perception Encoder : affiner l'intelligence visuelle de l'IA
L'une des pierres angulaires des nouvelles versions est le Perception Encoder, un encodeur visuel à grande échelle conçu pour offrir des performances exceptionnelles dans diverses tâches liées aux images et aux vidéos.
Les encodeurs de vision agissent comme les « yeux » des systèmes d'IA, leur permettant de comprendre les informations visuelles.
Meta souligne la difficulté croissante de créer des encodeurs pour l'IA avancée, qui doivent relier la vision au langage, traiter efficacement les images et les vidéos, et rester fiables dans des conditions difficiles, y compris en cas d'attaques adversaires.
Selon Meta, l'encodeur idéal devrait reconnaître un large éventail de concepts tout en captant les détails les plus fins, comme remarquer « une raie cachée sous le fond marin, identifier un petit chardonneret dans l'arrière-plan d'une image ou détecter un agouti se déplaçant rapidement sur une caméra de surveillance nocturne de la faune sauvage ».
Meta affirme que le Perception Encoder offre « des performances exceptionnelles en matière de classification et de récupération d'images et de vidéos sans apprentissage préalable, surpassant tous les modèles open source et propriétaires actuels pour ces tâches ».
De plus, ses capacités perceptives amélioreraient les performances des tâches linguistiques.
Associé à un modèle linguistique de grande taille (LLM), l'encodeur surpasserait les autres encodeurs visuels dans des domaines tels que la réponse à des questions visuelles (VQA), le sous-titrage, la compréhension de documents et l'ancrage (liaison du texte à des parties spécifiques d'une image). Il améliorerait également les performances dans des tâches où les LLM ont généralement des difficultés, telles que la compréhension des relations spatiales (par exemple, « si un objet se trouve derrière un autre ») ou le mouvement de la caméra par rapport à un objet.
« Alors que l'encodeur Perception commence à être intégré dans de nouvelles applications, nous sommes impatients de voir comment ses capacités visuelles avancées vont alimenter des systèmes d'IA encore plus sophistiqués », a commenté Meta.
Modèle linguistique de perception (PLM) : faire progresser la recherche ouverte sur la vision et le langage
Le Perception Language Model (PLM) fonctionne en parallèle avec l'encodeur. Il s'agit d'un modèle vision-langage ouvert et reproductible, conçu pour des tâches de reconnaissance visuelle complexes.
Le PLM a été entraîné à l'aide de données synthétiques exhaustives et de jeux de données ouverts sur la vision-langage, en évitant délibérément les connaissances issues de modèles propriétaires externes.
Conscient des lacunes des données existantes en matière de compréhension vidéo, l'équipe FAIR a rassemblé 2,5 millions de nouveaux échantillons étiquetés par des humains, axés sur les réponses détaillées à des questions vidéo et le sous-titrage spatio-temporel. Meta affirme qu'il s'agit du « plus grand ensemble de données de ce type à ce jour ».
Le PLM est disponible en versions à 1, 3 et 8 milliards de paramètres afin de répondre aux besoins de la recherche universitaire qui exige une transparence totale.
En plus des modèles, Meta lance PLM-VideoBench, un nouveau benchmark spécialement conçu pour tester des capacités souvent négligées par les benchmarks existants, à savoir « la compréhension fine des activités et le raisonnement spatio-temporel ».
Meta espère que la mise à disposition de modèles ouverts, d'un vaste ensemble de données et d'un benchmark ambitieux renforcera la communauté open source.
Meta Locate 3D : fournir aux robots une conscience situationnelle
Meta Locate 3D fait le lien entre les commandes vocales et les actions physiques. Ce modèle de bout en bout est conçu pour permettre aux robots de trouver avec précision des objets dans un espace 3D à partir de requêtes en langage naturel ouvert.
Meta Locate 3D traite les nuages de points 3D directement à partir de capteurs RVB-D (comme ceux équipant certains robots ou caméras à détection de profondeur). À partir d'une invite textuelle, telle que « vase à fleurs près du meuble TV », le système analyse les relations spatiales et le contexte pour identifier l'instance d'objet correcte, en la différenciant, par exemple, d'un « vase sur la table ».
Le système se compose de trois éléments principaux : une étape de prétraitement qui convertit les caractéristiques 2D en nuages de points 3D caractérisés ; l'encodeur 3D-JEPA (un modèle pré-entraîné qui crée une représentation contextualisée du monde en 3D) ; et le décodeur Locate 3D, qui utilise la représentation 3D et la requête linguistique pour générer des cadres de sélection et des masques pour les objets spécifiés.
Parallèlement au modèle, Meta publie un nouvel ensemble de données substantiel pour la localisation d'objets basé sur des expressions de référence. Il comprend 130 000 annotations linguistiques réparties sur 1 346 scènes provenant des ensembles de données ARKitScenes, ScanNet et ScanNet++, doublant ainsi les données annotées existantes dans ce domaine.
Meta considère cette technologie comme essentielle pour développer des systèmes robotiques plus performants, notamment son propre projet de robot PARTNR, facilitant une interaction et un travail d'équipe plus naturels entre l'homme et la machine.
Dynamic Byte Latent Transformer : modélisation linguistique efficace et robuste
À la suite de recherches publiées fin 2024, Meta publie désormais les poids du modèle pour son Dynamic Byte Latent Transformer à 8 milliards de paramètres.
Cette architecture marque une rupture avec les modèles linguistiques traditionnels basés sur la tokenisation, fonctionnant directement au niveau des octets. Meta affirme que cette méthode offre des performances similaires à grande échelle tout en apportant des gains significatifs en termes d'efficacité et de robustesse de l'inférence.
Les LLM conventionnels divisent le texte en « tokens », ce qui peut poser des problèmes en cas de fautes d'orthographe, de mots nouveaux ou d'entrées adversaires. Les modèles au niveau de l'octet traitent les octets bruts, ce qui peut offrir une plus grande résilience.
Meta rapporte que le Dynamic Byte Latent Transformer « surpasse les modèles basés sur la tokenisation dans diverses tâches, affichant un avantage moyen en termes de robustesse de +7 points (sur HellaSwag perturbé) et atteignant jusqu'à +55 points sur les tâches du benchmark CUTE de compréhension des tokens ».
En publiant les poids ainsi que la base de code précédemment partagée, Meta encourage la communauté des chercheurs à explorer cette approche alternative de la modélisation du langage.
Collaborative Reasoner : faire progresser les agents IA socialement intelligents
La dernière version, Collaborative Reasoner, relève le défi complexe de créer des agents IA capables de travailler efficacement avec des humains ou d'autres IA.
Meta note que la collaboration humaine produit souvent de meilleurs résultats et vise à doter l'IA de capacités similaires pour des tâches telles que l'aide aux devoirs ou la préparation d'un entretien d'embauche.
Une telle collaboration nécessite non seulement la résolution de problèmes, mais aussi des compétences sociales telles que la communication, l'empathie, la capacité à donner du feedback et à comprendre le point de vue des autres (théorie de l'esprit), qui se développent généralement au fil de multiples échanges conversationnels.
Les méthodes actuelles de formation et d'évaluation des LLM négligent souvent ces dimensions sociales et collaboratives. De plus, la collecte de données conversationnelles pertinentes est coûteuse et difficile.
Collaborative Reasoner fournit un cadre permettant d'évaluer et d'améliorer ces compétences. Il comprend des tâches axées sur des objectifs qui nécessitent un raisonnement en plusieurs étapes, réalisé grâce à un dialogue entre deux agents. Ce cadre teste des capacités telles que la désaccord constructif, la persuasion et la recherche d'une solution optimale pour les deux parties.
Les évaluations de Meta ont montré que les modèles actuels ne parviennent souvent pas à utiliser de manière cohérente la collaboration pour améliorer les résultats. Pour remédier à cela, ils proposent une technique d'auto-amélioration utilisant des données d'interaction synthétiques dans lesquelles un agent LLM collabore avec lui-même.
La génération de ces données à grande échelle est rendue possible par un nouveau moteur de service de modèles haute performance appelé Matrix. L'utilisation de cette méthode pour des tâches de raisonnement mathématique, scientifique et social aurait permis d'obtenir des améliorations allant jusqu'à 29,4 % par rapport aux performances standard d'une seule chaîne de pensée LLM.
En ouvrant le code source de la génération de données et du pipeline de modélisation, Meta vise à accélérer la recherche dans le développement d'« agents sociaux capables de s'associer avec des humains et d'autres agents ».
Ensemble, ces cinq publications soulignent l'investissement substantiel et continu de Meta dans la recherche fondamentale en IA, en particulier dans la création des composants fondamentaux pour des machines capables de percevoir, de comprendre et d'interagir avec le monde de manière plus humaine.
Voir aussi : Meta va former des modèles d'IA à partir des données des utilisateurs de l'UE
Vous souhaitez en savoir plus sur l'IA et le big data auprès des leaders du secteur ? Découvrez l'AI & Big Data Expo qui se tiendra à Amsterdam, en Californie et à Londres. Cet événement complet se déroule en même temps que d'autres événements majeurs, notamment l'Intelligent Automation Conference, BlockX, la Digital Transformation Week et la Cyber Security & Cloud Expo.
Découvrez ici d'autres événements et webinaires sur les technologies d'entreprise organisés par TechForge.
Article connexe
Notion transforme son espace de travail en une plateforme centralisée pour les agents IA
Notion, l'éditeur de logiciels de productivité, entre dans l'ère des agents.Lors d'une annonce de produit diffusée en direct mercredi, Notion — surtout connu pour son application de pri
ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs
ElevenLabs, la société spécialisée dans l'IA vocale, a révélé le nom d'investisseurs supplémentaires ayant participé à son tour de table de série D de 500 millions de dollars, initialement annoncé en
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Recommandations de sujets spéciaux liés
commentaires (1)
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠
L'équipe Fundamental AI Research (FAIR) de Meta a dévoilé cinq nouveaux projets qui font progresser ses travaux dans le domaine de l'intelligence artificielle avancée (AMI).
Ces dernières publications se concentrent sur l'amélioration de la perception de l'IA (la manière dont les machines traitent les informations sensorielles) ainsi que sur les progrès réalisés dans les modèles linguistiques, la robotique et les agents IA collaboratifs.
Meta a expliqué que son objectif était de construire des machines « capables d'acquérir, de traiter et d'interpréter les données sensorielles de notre monde, et d'utiliser ces informations pour prendre des décisions avec une intelligence et une rapidité similaires à celles des humains ».
Les cinq nouvelles initiatives représentent une série d'efforts interdépendants visant à atteindre cet objectif ambitieux.
Perception Encoder : affiner l'intelligence visuelle de l'IA
L'une des pierres angulaires des nouvelles versions est le Perception Encoder, un encodeur visuel à grande échelle conçu pour offrir des performances exceptionnelles dans diverses tâches liées aux images et aux vidéos.
Les encodeurs de vision agissent comme les « yeux » des systèmes d'IA, leur permettant de comprendre les informations visuelles.
Meta souligne la difficulté croissante de créer des encodeurs pour l'IA avancée, qui doivent relier la vision au langage, traiter efficacement les images et les vidéos, et rester fiables dans des conditions difficiles, y compris en cas d'attaques adversaires.
Selon Meta, l'encodeur idéal devrait reconnaître un large éventail de concepts tout en captant les détails les plus fins, comme remarquer « une raie cachée sous le fond marin, identifier un petit chardonneret dans l'arrière-plan d'une image ou détecter un agouti se déplaçant rapidement sur une caméra de surveillance nocturne de la faune sauvage ».
Meta affirme que le Perception Encoder offre « des performances exceptionnelles en matière de classification et de récupération d'images et de vidéos sans apprentissage préalable, surpassant tous les modèles open source et propriétaires actuels pour ces tâches ».
De plus, ses capacités perceptives amélioreraient les performances des tâches linguistiques.
Associé à un modèle linguistique de grande taille (LLM), l'encodeur surpasserait les autres encodeurs visuels dans des domaines tels que la réponse à des questions visuelles (VQA), le sous-titrage, la compréhension de documents et l'ancrage (liaison du texte à des parties spécifiques d'une image). Il améliorerait également les performances dans des tâches où les LLM ont généralement des difficultés, telles que la compréhension des relations spatiales (par exemple, « si un objet se trouve derrière un autre ») ou le mouvement de la caméra par rapport à un objet.
« Alors que l'encodeur Perception commence à être intégré dans de nouvelles applications, nous sommes impatients de voir comment ses capacités visuelles avancées vont alimenter des systèmes d'IA encore plus sophistiqués », a commenté Meta.
Modèle linguistique de perception (PLM) : faire progresser la recherche ouverte sur la vision et le langage
Le Perception Language Model (PLM) fonctionne en parallèle avec l'encodeur. Il s'agit d'un modèle vision-langage ouvert et reproductible, conçu pour des tâches de reconnaissance visuelle complexes.
Le PLM a été entraîné à l'aide de données synthétiques exhaustives et de jeux de données ouverts sur la vision-langage, en évitant délibérément les connaissances issues de modèles propriétaires externes.
Conscient des lacunes des données existantes en matière de compréhension vidéo, l'équipe FAIR a rassemblé 2,5 millions de nouveaux échantillons étiquetés par des humains, axés sur les réponses détaillées à des questions vidéo et le sous-titrage spatio-temporel. Meta affirme qu'il s'agit du « plus grand ensemble de données de ce type à ce jour ».
Le PLM est disponible en versions à 1, 3 et 8 milliards de paramètres afin de répondre aux besoins de la recherche universitaire qui exige une transparence totale.
En plus des modèles, Meta lance PLM-VideoBench, un nouveau benchmark spécialement conçu pour tester des capacités souvent négligées par les benchmarks existants, à savoir « la compréhension fine des activités et le raisonnement spatio-temporel ».
Meta espère que la mise à disposition de modèles ouverts, d'un vaste ensemble de données et d'un benchmark ambitieux renforcera la communauté open source.
Meta Locate 3D : fournir aux robots une conscience situationnelle
Meta Locate 3D fait le lien entre les commandes vocales et les actions physiques. Ce modèle de bout en bout est conçu pour permettre aux robots de trouver avec précision des objets dans un espace 3D à partir de requêtes en langage naturel ouvert.
Meta Locate 3D traite les nuages de points 3D directement à partir de capteurs RVB-D (comme ceux équipant certains robots ou caméras à détection de profondeur). À partir d'une invite textuelle, telle que « vase à fleurs près du meuble TV », le système analyse les relations spatiales et le contexte pour identifier l'instance d'objet correcte, en la différenciant, par exemple, d'un « vase sur la table ».
Le système se compose de trois éléments principaux : une étape de prétraitement qui convertit les caractéristiques 2D en nuages de points 3D caractérisés ; l'encodeur 3D-JEPA (un modèle pré-entraîné qui crée une représentation contextualisée du monde en 3D) ; et le décodeur Locate 3D, qui utilise la représentation 3D et la requête linguistique pour générer des cadres de sélection et des masques pour les objets spécifiés.
Parallèlement au modèle, Meta publie un nouvel ensemble de données substantiel pour la localisation d'objets basé sur des expressions de référence. Il comprend 130 000 annotations linguistiques réparties sur 1 346 scènes provenant des ensembles de données ARKitScenes, ScanNet et ScanNet++, doublant ainsi les données annotées existantes dans ce domaine.
Meta considère cette technologie comme essentielle pour développer des systèmes robotiques plus performants, notamment son propre projet de robot PARTNR, facilitant une interaction et un travail d'équipe plus naturels entre l'homme et la machine.
Dynamic Byte Latent Transformer : modélisation linguistique efficace et robuste
À la suite de recherches publiées fin 2024, Meta publie désormais les poids du modèle pour son Dynamic Byte Latent Transformer à 8 milliards de paramètres.
Cette architecture marque une rupture avec les modèles linguistiques traditionnels basés sur la tokenisation, fonctionnant directement au niveau des octets. Meta affirme que cette méthode offre des performances similaires à grande échelle tout en apportant des gains significatifs en termes d'efficacité et de robustesse de l'inférence.
Les LLM conventionnels divisent le texte en « tokens », ce qui peut poser des problèmes en cas de fautes d'orthographe, de mots nouveaux ou d'entrées adversaires. Les modèles au niveau de l'octet traitent les octets bruts, ce qui peut offrir une plus grande résilience.
Meta rapporte que le Dynamic Byte Latent Transformer « surpasse les modèles basés sur la tokenisation dans diverses tâches, affichant un avantage moyen en termes de robustesse de +7 points (sur HellaSwag perturbé) et atteignant jusqu'à +55 points sur les tâches du benchmark CUTE de compréhension des tokens ».
En publiant les poids ainsi que la base de code précédemment partagée, Meta encourage la communauté des chercheurs à explorer cette approche alternative de la modélisation du langage.
Collaborative Reasoner : faire progresser les agents IA socialement intelligents
La dernière version, Collaborative Reasoner, relève le défi complexe de créer des agents IA capables de travailler efficacement avec des humains ou d'autres IA.
Meta note que la collaboration humaine produit souvent de meilleurs résultats et vise à doter l'IA de capacités similaires pour des tâches telles que l'aide aux devoirs ou la préparation d'un entretien d'embauche.
Une telle collaboration nécessite non seulement la résolution de problèmes, mais aussi des compétences sociales telles que la communication, l'empathie, la capacité à donner du feedback et à comprendre le point de vue des autres (théorie de l'esprit), qui se développent généralement au fil de multiples échanges conversationnels.
Les méthodes actuelles de formation et d'évaluation des LLM négligent souvent ces dimensions sociales et collaboratives. De plus, la collecte de données conversationnelles pertinentes est coûteuse et difficile.
Collaborative Reasoner fournit un cadre permettant d'évaluer et d'améliorer ces compétences. Il comprend des tâches axées sur des objectifs qui nécessitent un raisonnement en plusieurs étapes, réalisé grâce à un dialogue entre deux agents. Ce cadre teste des capacités telles que la désaccord constructif, la persuasion et la recherche d'une solution optimale pour les deux parties.
Les évaluations de Meta ont montré que les modèles actuels ne parviennent souvent pas à utiliser de manière cohérente la collaboration pour améliorer les résultats. Pour remédier à cela, ils proposent une technique d'auto-amélioration utilisant des données d'interaction synthétiques dans lesquelles un agent LLM collabore avec lui-même.
La génération de ces données à grande échelle est rendue possible par un nouveau moteur de service de modèles haute performance appelé Matrix. L'utilisation de cette méthode pour des tâches de raisonnement mathématique, scientifique et social aurait permis d'obtenir des améliorations allant jusqu'à 29,4 % par rapport aux performances standard d'une seule chaîne de pensée LLM.
En ouvrant le code source de la génération de données et du pipeline de modélisation, Meta vise à accélérer la recherche dans le développement d'« agents sociaux capables de s'associer avec des humains et d'autres agents ».
Ensemble, ces cinq publications soulignent l'investissement substantiel et continu de Meta dans la recherche fondamentale en IA, en particulier dans la création des composants fondamentaux pour des machines capables de percevoir, de comprendre et d'interagir avec le monde de manière plus humaine.
Voir aussi : Meta va former des modèles d'IA à partir des données des utilisateurs de l'UE
Vous souhaitez en savoir plus sur l'IA et le big data auprès des leaders du secteur ? Découvrez l'AI & Big Data Expo qui se tiendra à Amsterdam, en Californie et à Londres. Cet événement complet se déroule en même temps que d'autres événements majeurs, notamment l'Intelligent Automation Conference, BlockX, la Digital Transformation Week et la Cyber Security & Cloud Expo.
Découvrez ici d'autres événements et webinaires sur les technologies d'entreprise organisés par TechForge.
Notion transforme son espace de travail en une plateforme centralisée pour les agents IA
Notion, l'éditeur de logiciels de productivité, entre dans l'ère des agents.Lors d'une annonce de produit diffusée en direct mercredi, Notion — surtout connu pour son application de pri
ElevenLabs annonce que BlackRock, Jamie Foxx et Eva Longoria ont rejoint le cercle de ses investisseurs
ElevenLabs, la société spécialisée dans l'IA vocale, a révélé le nom d'investisseurs supplémentaires ayant participé à son tour de table de série D de 500 millions de dollars, initialement annoncé en
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠





Maison






