Comment nous avons construit la nouvelle famille de modèles de robotique Gemini

Maison

Nouvelles

10 avril 2025

JimmyKing

# ai # Gemini

Comment nous avons construit la nouvelle famille de modèles de robotique Gemini

Alors que Google DeepMind se préparait pour son annonce la plus récente concernant les nouveaux modèles Gemini 2.0 conçus pour la robotique, Carolina Parada, la responsable de la robotique, a rassemblé son équipe pour effectuer une dernière vérification de la technologie.

Ils ont défié un robot ALOHA à deux bras — vous savez, ces bras métalliques flexibles avec tous ces joints et ces mains en forme de pince que les chercheurs adorent utiliser — d’accomplir des tâches qu’il n’avait jamais réalisées auparavant, avec des objets qu’il n’avait jamais vus. « On lui a lancé des trucs au hasard, comme poser ma chaussure sur la table et lui demander de ranger des stylos à l’intérieur », se souvient Carolina. « Le robot a marqué une pause d’une seconde pour comprendre, puis il l’a fait. »

Ensuite, ils ont trouvé un panier de basket miniature et une balle, et ont défié le robot de faire un « slam dunk ». Carolina ne pouvait s’empêcher de rayonner de fierté lorsqu’il a réussi.

Carolina dit que regarder le slam dunk était un véritable moment « wow ».

« Nous entraînons des modèles pour aider les robots avec des tâches spécifiques et comprendre le langage naturel depuis un certain temps, mais ça ? C’était un tournant », explique Carolina. « Le robot n’avait aucune expérience avec le basket ou ce jouet particulier. Pourtant, il a saisi l’idée complexe de ‘faire un slam dunk avec la balle’ et l’a exécuté sans accroc. Dès la première tentative. »

Ce robot polyvalent était alimenté par un modèle Gemini Robotics, faisant partie d’un nouveau lot de modèles multimodaux conçus pour la robotique. Ces modèles améliorent Gemini 2.0 en s’affinant avec des données spécifiques aux robots, intégrant des actions physiques aux sorties multimodales habituelles de Gemini comme le texte, la vidéo et l’audio. « Cette étape ouvre la voie à la prochaine vague de robotique capable d’assister dans diverses applications », a déclaré Sundar Pichai, PDG de Google, lors du dévoilement des nouveaux modèles sur X.

Les modèles Gemini Robotics sont incroyablement polyvalents, interactifs et généraux, permettant aux robots de réagir à de nouveaux objets, environnements et instructions sans nécessiter davantage d’entraînement. C’est une avancée majeure, compte tenu des objectifs de l’équipe.

« Notre objectif est de créer une IA incarnée qui alimente les robots pour aider dans les tâches quotidiennes dans le monde réel », explique Carolina, dont l’amour pour la robotique a été éveillé par des dessins animés de science-fiction dans son enfance et des rêves de corvées automatisées. « À terme, les robots seront simplement une autre manière d’interagir avec l’IA, comme nos téléphones ou ordinateurs — des agents physiques dans notre monde. »

Pour que les robots accomplissent leurs tâches efficacement et en toute sécurité, ils ont besoin de deux compétences clés : la compréhension et la prise de décision, ainsi que la capacité d’agir. Gemini Robotics-ER, un modèle de « raisonnement incarné » construit sur Gemini 2.0 Flash, se concentre sur la première. Il peut repérer les éléments dans son environnement, évaluer leur taille et leur position, et prédire le trajet et la prise nécessaires pour les déplacer. Ensuite, il génère du code pour exécuter l’action. Nous déployons maintenant ce modèle auprès de testeurs et partenaires de confiance.

Google DeepMind déploie également Gemini Robotics, son modèle vision-langage-action de premier plan, qui permet aux robots d’analyser une scène, d’interagir avec les utilisateurs et d’agir. Il a fait d’énormes progrès dans un domaine qui a toujours été un casse-tête pour les roboticistes : la dextérité. « Ce qui est naturel pour nous, humains, est difficile pour les robots », note Carolina. « La dextérité implique à la fois le raisonnement spatial et la manipulation physique complexe. Lors des tests, Gemini Robotics a établi une nouvelle référence pour la dextérité, gérant des tâches complexes en plusieurs étapes avec des mouvements fluides et des temps d’achèvement impressionnants. »

Gemini Robotics-ER excelle dans le raisonnement incarné, maîtrisant des tâches comme la détection d’objets, le pointage sur des parties d’objets, la recherche de points correspondants et la détection d’objets en 3D.

Avec Gemini Robotics à la barre, les machines ont préparé des salades, emballé des déjeuners pour enfants, joué à des jeux comme le morpion, et même fabriqué un renard en origami.

Préparer des modèles à gérer une large gamme de tâches n’a pas été une mince affaire — principalement parce que cela va à l’encontre de la tendance à entraîner des modèles pour une tâche spécifique jusqu’à ce qu’elle soit parfaite. « Nous avons opté pour un apprentissage de tâches large, entraînant les modèles sur une tonne de tâches », explique Carolina. « Nous pensions qu’après un certain temps, ils commenceraient à généraliser, et nous avions raison. »

Les deux modèles peuvent s’adapter à diverses incarnations, des robots axés sur la recherche comme l’ALOHA à deux bras aux robots humanoïdes comme Apollo, développé par notre partenaire Apptronik.

Ces modèles peuvent s’adapter à différentes formes, effectuant des tâches comme emballer une boîte à lunch ou essuyer un tableau blanc dans divers corps de robots.

Cette adaptabilité est cruciale pour un avenir où les robots pourraient assumer une variété de rôles.

« Le potentiel des robots utilisant ces modèles hautement généraux et performants est vaste et excitant », dit Carolina. « Ils pourraient être extrêmement utiles dans des industries où les choses sont complexes, où la précision compte, et où les espaces ne sont pas conçus pour les humains. Et ils pourraient faciliter la vie dans des espaces centrés sur l’humain, comme nos maisons. C’est encore loin, mais ces modèles nous font avancer. »

Il semble que l’aide pour ces corvées soit peut-être à l’horizon — éventuellement.

Article connexe

Google relance l'application "Ask Photos", alimentée par l'IA, avec des fonctions de vitesse améliorées Après une interruption temporaire des tests, Google relance sa fonctionnalité de recherche "Ask Photos" basée sur l'IA dans Google Photos en y apportant des améliorations significatives. Alimentée par

Microsoft accueille les modèles avancés Grok 3 de xAI dans le cadre d'une nouvelle collaboration en matière d'IA Au début du mois, mon journalisme d'investigation *Notepad* a révélé les plans de Microsoft pour intégrer les modèles d'IA Grok d'Elon Musk - des révélations qui ont maintenant été officiellement conf

Apple s'associe à Anthropic pour développer un outil de codage de l'IA pour Xcode Apple et Anthropic collaborent sur un assistant de codage doté d'une IASelon Bloomberg, Apple est en train de développer un assistant de codage IA avancé qui s'intégrera directement dans Xcode, son

commentaires (22)

0/200

Soumettre

CarlGarcia

19 septembre 2025 06:30:33 UTC+02:00

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez

8 août 2025 19:01:00 UTC+02:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller

14 avril 2025 02:57:22 UTC+02:00

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen

13 avril 2025 05:41:57 UTC+02:00

新しいジェミニロボティクスモデルは驚異的です！ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール！🤖

BenHernández

13 avril 2025 00:11:04 UTC+02:00

新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする！二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど！

JonathanAllen

12 avril 2025 14:44:44 UTC+02:00

Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie AI Builder et Power Automate Révolutionnent la Synthèse de Documents Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée

Plus

En vedette