Maison
Le premier modèle mondial d'intelligence incarnée au niveau des événements met fin à l'apprentissage image par image pour les robots
Le 29 mai, l'équipe de Variable Robot a dévoilé WALL-WM, le premier modèle du monde doté d'une intelligence incarnée au monde, fondé sur la « prédiction au niveau des événements ». Ce modèle s'affranchit des grands modèles incarnés conventionnels qui apprennent les actions image par image au fil du temps, en orientant plutôt l'unité de prédiction du modèle du monde vers des événements sémantiques. Il marque une nouvelle étape dans la manière dont les robots comprennent et exécutent les tâches.

Dans le secteur actuel de l’intelligence incarnée, les modèles VLA (vision-langage-action) dominants utilisent généralement une image et une instruction du moment pour prédire un bloc d’action de longueur fixe. Cette approche d’entraînement image par image conduit souvent les robots à se concentrer sur des mouvements physiques mineurs tout en perdant de vue l’objectif final de l’action. Face à des scénarios tels que le changement de tasses ou de tables, les robots échouent fréquemment en raison d’un manque de généralisation. Pour remédier à ce problème majeur du secteur, l’équipe de Variable a souligné dans son article scientifique que les informations textuelles, visuelles et d’action existent naturellement à différentes échelles de temps et dans des géométries multiples dans le monde réel. Les forcer à cohabiter dans un seul espace commun peut facilement endommager le modèle géométrique pré-entraîné.
Pour relever ce défi, le modèle du monde WALL-WM introduit un mécanisme innovant d’entraînement et d’exécution centré sur les événements. Il décompose les tâches complexes en événements sémantiquement clairs, tels que tendre le bras, saisir et déplacer. En fonctionnement, le modèle ne calcule plus de manière rigide l'image suivante. Au lieu de cela, il simule d'abord comment le monde va changer en raison de l'événement suivant, puis traduit précisément ce changement visuel en trajectoire de mouvement du bras robotique.

Pour garantir que cette nouvelle architecture puisse être déployée de manière fiable dans le monde physique, l'équipe de Variable Robot a procédé à une série de révisions techniques approfondies. Le système prend en charge une commutation flexible entre le « mode événement » (avec une sortie d'action de longueur variable) et le « mode unifié » (avec un contrôle en boucle fermée en temps réel) sur les mêmes poids de base. Il réalise également un couplage unidirectionnel entre les modèles vidéo et les modèles d’action, empêchant ainsi que les précieuses informations a priori dynamiques issues des vidéos Internet ne soient prématurément biaisées par les données d’action. Pour la perception géométrique à partir de plusieurs caméras, le modèle introduit des masques de frustum et des masques tubulaires, forçant l'IA à développer une correspondance géométrique tridimensionnelle réelle entre les différentes vues. Pour remédier à la latence de décision, il utilise une nouvelle technique de « décodage par chaîne de pensée par étapes » qui réduit considérablement le délai de décodage tout en conservant l'interprétabilité logique.

Article connexe
Claude, l'IA expérimentale d'Anthropic, mène à bien des négociations et des transactions dans le cadre d'un test de commerce électronique
Alors que l'intelligence artificielle progresse à grands pas, Anthropic a discrètement lancé vendredi dernier une expérience interne baptisée « Project Deal », visant à mettre en avant le potentiel de
DeepSeek Code s'apprête à être lancé
Alors que les technologies d'IA progressent à grands pas, DeepSeek se trouve à un tournant passionnant. L'entreprise spécialisée dans l'IA a récemment annoncé avoir levé plus de 70 milliards de yuans.
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ?
Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla
Recommandations de sujets spéciaux liés
commentaires (0)
Le 29 mai, l'équipe de Variable Robot a dévoilé WALL-WM, le premier modèle du monde doté d'une intelligence incarnée au monde, fondé sur la « prédiction au niveau des événements ». Ce modèle s'affranchit des grands modèles incarnés conventionnels qui apprennent les actions image par image au fil du temps, en orientant plutôt l'unité de prédiction du modèle du monde vers des événements sémantiques. Il marque une nouvelle étape dans la manière dont les robots comprennent et exécutent les tâches.

Dans le secteur actuel de l’intelligence incarnée, les modèles VLA (vision-langage-action) dominants utilisent généralement une image et une instruction du moment pour prédire un bloc d’action de longueur fixe. Cette approche d’entraînement image par image conduit souvent les robots à se concentrer sur des mouvements physiques mineurs tout en perdant de vue l’objectif final de l’action. Face à des scénarios tels que le changement de tasses ou de tables, les robots échouent fréquemment en raison d’un manque de généralisation. Pour remédier à ce problème majeur du secteur, l’équipe de Variable a souligné dans son article scientifique que les informations textuelles, visuelles et d’action existent naturellement à différentes échelles de temps et dans des géométries multiples dans le monde réel. Les forcer à cohabiter dans un seul espace commun peut facilement endommager le modèle géométrique pré-entraîné.
Pour relever ce défi, le modèle du monde WALL-WM introduit un mécanisme innovant d’entraînement et d’exécution centré sur les événements. Il décompose les tâches complexes en événements sémantiquement clairs, tels que tendre le bras, saisir et déplacer. En fonctionnement, le modèle ne calcule plus de manière rigide l'image suivante. Au lieu de cela, il simule d'abord comment le monde va changer en raison de l'événement suivant, puis traduit précisément ce changement visuel en trajectoire de mouvement du bras robotique.

Pour garantir que cette nouvelle architecture puisse être déployée de manière fiable dans le monde physique, l'équipe de Variable Robot a procédé à une série de révisions techniques approfondies. Le système prend en charge une commutation flexible entre le « mode événement » (avec une sortie d'action de longueur variable) et le « mode unifié » (avec un contrôle en boucle fermée en temps réel) sur les mêmes poids de base. Il réalise également un couplage unidirectionnel entre les modèles vidéo et les modèles d’action, empêchant ainsi que les précieuses informations a priori dynamiques issues des vidéos Internet ne soient prématurément biaisées par les données d’action. Pour la perception géométrique à partir de plusieurs caméras, le modèle introduit des masques de frustum et des masques tubulaires, forçant l'IA à développer une correspondance géométrique tridimensionnelle réelle entre les différentes vues. Pour remédier à la latence de décision, il utilise une nouvelle technique de « décodage par chaîne de pensée par étapes » qui réduit considérablement le délai de décodage tout en conservant l'interprétabilité logique.

Claude, l'IA expérimentale d'Anthropic, mène à bien des négociations et des transactions dans le cadre d'un test de commerce électronique
Alors que l'intelligence artificielle progresse à grands pas, Anthropic a discrètement lancé vendredi dernier une expérience interne baptisée « Project Deal », visant à mettre en avant le potentiel de
DeepSeek Code s'apprête à être lancé
Alors que les technologies d'IA progressent à grands pas, DeepSeek se trouve à un tournant passionnant. L'entreprise spécialisée dans l'IA a récemment annoncé avoir levé plus de 70 milliards de yuans.
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ?
Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla











