Comment nous avons construit la nouvelle famille de modèles de robotique Gemini

Alors que Google DeepMind se préparait pour son annonce la plus récente concernant les nouveaux modèles Gemini 2.0 conçus pour la robotique, Carolina Parada, la responsable de la robotique, a rassemblé son équipe pour effectuer une dernière vérification de la technologie.
Ils ont défié un robot ALOHA à deux bras — vous savez, ces bras métalliques flexibles avec tous ces joints et ces mains en forme de pince que les chercheurs adorent utiliser — d’accomplir des tâches qu’il n’avait jamais réalisées auparavant, avec des objets qu’il n’avait jamais vus. « On lui a lancé des trucs au hasard, comme poser ma chaussure sur la table et lui demander de ranger des stylos à l’intérieur », se souvient Carolina. « Le robot a marqué une pause d’une seconde pour comprendre, puis il l’a fait. »
Ensuite, ils ont trouvé un panier de basket miniature et une balle, et ont défié le robot de faire un « slam dunk ». Carolina ne pouvait s’empêcher de rayonner de fierté lorsqu’il a réussi.
Carolina dit que regarder le slam dunk était un véritable moment « wow ».
« Nous entraînons des modèles pour aider les robots avec des tâches spécifiques et comprendre le langage naturel depuis un certain temps, mais ça ? C’était un tournant », explique Carolina. « Le robot n’avait aucune expérience avec le basket ou ce jouet particulier. Pourtant, il a saisi l’idée complexe de ‘faire un slam dunk avec la balle’ et l’a exécuté sans accroc. Dès la première tentative. »
Ce robot polyvalent était alimenté par un modèle Gemini Robotics, faisant partie d’un nouveau lot de modèles multimodaux conçus pour la robotique. Ces modèles améliorent Gemini 2.0 en s’affinant avec des données spécifiques aux robots, intégrant des actions physiques aux sorties multimodales habituelles de Gemini comme le texte, la vidéo et l’audio. « Cette étape ouvre la voie à la prochaine vague de robotique capable d’assister dans diverses applications », a déclaré Sundar Pichai, PDG de Google, lors du dévoilement des nouveaux modèles sur X.
Les modèles Gemini Robotics sont incroyablement polyvalents, interactifs et généraux, permettant aux robots de réagir à de nouveaux objets, environnements et instructions sans nécessiter davantage d’entraînement. C’est une avancée majeure, compte tenu des objectifs de l’équipe.
« Notre objectif est de créer une IA incarnée qui alimente les robots pour aider dans les tâches quotidiennes dans le monde réel », explique Carolina, dont l’amour pour la robotique a été éveillé par des dessins animés de science-fiction dans son enfance et des rêves de corvées automatisées. « À terme, les robots seront simplement une autre manière d’interagir avec l’IA, comme nos téléphones ou ordinateurs — des agents physiques dans notre monde. »
Pour que les robots accomplissent leurs tâches efficacement et en toute sécurité, ils ont besoin de deux compétences clés : la compréhension et la prise de décision, ainsi que la capacité d’agir. Gemini Robotics-ER, un modèle de « raisonnement incarné » construit sur Gemini 2.0 Flash, se concentre sur la première. Il peut repérer les éléments dans son environnement, évaluer leur taille et leur position, et prédire le trajet et la prise nécessaires pour les déplacer. Ensuite, il génère du code pour exécuter l’action. Nous déployons maintenant ce modèle auprès de testeurs et partenaires de confiance.
Google DeepMind déploie également Gemini Robotics, son modèle vision-langage-action de premier plan, qui permet aux robots d’analyser une scène, d’interagir avec les utilisateurs et d’agir. Il a fait d’énormes progrès dans un domaine qui a toujours été un casse-tête pour les roboticistes : la dextérité. « Ce qui est naturel pour nous, humains, est difficile pour les robots », note Carolina. « La dextérité implique à la fois le raisonnement spatial et la manipulation physique complexe. Lors des tests, Gemini Robotics a établi une nouvelle référence pour la dextérité, gérant des tâches complexes en plusieurs étapes avec des mouvements fluides et des temps d’achèvement impressionnants. »
Gemini Robotics-ER excelle dans le raisonnement incarné, maîtrisant des tâches comme la détection d’objets, le pointage sur des parties d’objets, la recherche de points correspondants et la détection d’objets en 3D.
Avec Gemini Robotics à la barre, les machines ont préparé des salades, emballé des déjeuners pour enfants, joué à des jeux comme le morpion, et même fabriqué un renard en origami.
Préparer des modèles à gérer une large gamme de tâches n’a pas été une mince affaire — principalement parce que cela va à l’encontre de la tendance à entraîner des modèles pour une tâche spécifique jusqu’à ce qu’elle soit parfaite. « Nous avons opté pour un apprentissage de tâches large, entraînant les modèles sur une tonne de tâches », explique Carolina. « Nous pensions qu’après un certain temps, ils commenceraient à généraliser, et nous avions raison. »
Les deux modèles peuvent s’adapter à diverses incarnations, des robots axés sur la recherche comme l’ALOHA à deux bras aux robots humanoïdes comme Apollo, développé par notre partenaire Apptronik.
Ces modèles peuvent s’adapter à différentes formes, effectuant des tâches comme emballer une boîte à lunch ou essuyer un tableau blanc dans divers corps de robots.
Cette adaptabilité est cruciale pour un avenir où les robots pourraient assumer une variété de rôles.
« Le potentiel des robots utilisant ces modèles hautement généraux et performants est vaste et excitant », dit Carolina. « Ils pourraient être extrêmement utiles dans des industries où les choses sont complexes, où la précision compte, et où les espaces ne sont pas conçus pour les humains. Et ils pourraient faciliter la vie dans des espaces centrés sur l’humain, comme nos maisons. C’est encore loin, mais ces modèles nous font avancer. »
Il semble que l’aide pour ces corvées soit peut-être à l’horizon — éventuellement.
Article connexe
Libérer la croissance de l'IA grâce aux investissements dans la main-d'œuvre et l'infrastructure énergétique
L'IA offre aux États-Unis une opportunité transformative de stimuler l'innovation et la croissance économique. Son adoption dynamisera l'économie, créera des emplois et accélérera les progrès scientif
Adobe et Figma intègrent le modèle avancé de génération d'images d'OpenAI
La génération d'images améliorée d'OpenAI dans ChatGPT a entraîné une augmentation des utilisateurs, grâce à sa capacité à produire des visuels de style Studio Ghibli et des designs uniques, et s'éten
Géants de la technologie divisés sur le code de l'IA de l'UE à l'approche de la date limite de conformité
Le Code de pratique général de l'IA de l'UE a révélé des différences marquées parmi les principales entreprises technologiques. Microsoft a exprimé son intention d'adopter le cadre volontaire de confo
commentaires (21)
0/200
KeithLopez
8 août 2025 19:01:00 UTC+02:00
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
0
WilliamMiller
14 avril 2025 02:57:22 UTC+02:00
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖
0
StephenGreen
13 avril 2025 05:41:57 UTC+02:00
新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖
0
BenHernández
13 avril 2025 00:11:04 UTC+02:00
新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!
0
JonathanAllen
12 avril 2025 14:44:44 UTC+02:00
Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!
0
DonaldSanchez
12 avril 2025 04:55:17 UTC+02:00
제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!
0
Alors que Google DeepMind se préparait pour son annonce la plus récente concernant les nouveaux modèles Gemini 2.0 conçus pour la robotique, Carolina Parada, la responsable de la robotique, a rassemblé son équipe pour effectuer une dernière vérification de la technologie.
Ils ont défié un robot ALOHA à deux bras — vous savez, ces bras métalliques flexibles avec tous ces joints et ces mains en forme de pince que les chercheurs adorent utiliser — d’accomplir des tâches qu’il n’avait jamais réalisées auparavant, avec des objets qu’il n’avait jamais vus. « On lui a lancé des trucs au hasard, comme poser ma chaussure sur la table et lui demander de ranger des stylos à l’intérieur », se souvient Carolina. « Le robot a marqué une pause d’une seconde pour comprendre, puis il l’a fait. »
Ensuite, ils ont trouvé un panier de basket miniature et une balle, et ont défié le robot de faire un « slam dunk ». Carolina ne pouvait s’empêcher de rayonner de fierté lorsqu’il a réussi.
« Nous entraînons des modèles pour aider les robots avec des tâches spécifiques et comprendre le langage naturel depuis un certain temps, mais ça ? C’était un tournant », explique Carolina. « Le robot n’avait aucune expérience avec le basket ou ce jouet particulier. Pourtant, il a saisi l’idée complexe de ‘faire un slam dunk avec la balle’ et l’a exécuté sans accroc. Dès la première tentative. »
Ce robot polyvalent était alimenté par un modèle Gemini Robotics, faisant partie d’un nouveau lot de modèles multimodaux conçus pour la robotique. Ces modèles améliorent Gemini 2.0 en s’affinant avec des données spécifiques aux robots, intégrant des actions physiques aux sorties multimodales habituelles de Gemini comme le texte, la vidéo et l’audio. « Cette étape ouvre la voie à la prochaine vague de robotique capable d’assister dans diverses applications », a déclaré Sundar Pichai, PDG de Google, lors du dévoilement des nouveaux modèles sur X.
Les modèles Gemini Robotics sont incroyablement polyvalents, interactifs et généraux, permettant aux robots de réagir à de nouveaux objets, environnements et instructions sans nécessiter davantage d’entraînement. C’est une avancée majeure, compte tenu des objectifs de l’équipe.
« Notre objectif est de créer une IA incarnée qui alimente les robots pour aider dans les tâches quotidiennes dans le monde réel », explique Carolina, dont l’amour pour la robotique a été éveillé par des dessins animés de science-fiction dans son enfance et des rêves de corvées automatisées. « À terme, les robots seront simplement une autre manière d’interagir avec l’IA, comme nos téléphones ou ordinateurs — des agents physiques dans notre monde. »
Google DeepMind déploie également Gemini Robotics, son modèle vision-langage-action de premier plan, qui permet aux robots d’analyser une scène, d’interagir avec les utilisateurs et d’agir. Il a fait d’énormes progrès dans un domaine qui a toujours été un casse-tête pour les roboticistes : la dextérité. « Ce qui est naturel pour nous, humains, est difficile pour les robots », note Carolina. « La dextérité implique à la fois le raisonnement spatial et la manipulation physique complexe. Lors des tests, Gemini Robotics a établi une nouvelle référence pour la dextérité, gérant des tâches complexes en plusieurs étapes avec des mouvements fluides et des temps d’achèvement impressionnants. »
Préparer des modèles à gérer une large gamme de tâches n’a pas été une mince affaire — principalement parce que cela va à l’encontre de la tendance à entraîner des modèles pour une tâche spécifique jusqu’à ce qu’elle soit parfaite. « Nous avons opté pour un apprentissage de tâches large, entraînant les modèles sur une tonne de tâches », explique Carolina. « Nous pensions qu’après un certain temps, ils commenceraient à généraliser, et nous avions raison. »
Les deux modèles peuvent s’adapter à diverses incarnations, des robots axés sur la recherche comme l’ALOHA à deux bras aux robots humanoïdes comme Apollo, développé par notre partenaire Apptronik.
« Le potentiel des robots utilisant ces modèles hautement généraux et performants est vaste et excitant », dit Carolina. « Ils pourraient être extrêmement utiles dans des industries où les choses sont complexes, où la précision compte, et où les espaces ne sont pas conçus pour les humains. Et ils pourraient faciliter la vie dans des espaces centrés sur l’humain, comme nos maisons. C’est encore loin, mais ces modèles nous font avancer. »
Il semble que l’aide pour ces corvées soit peut-être à l’horizon — éventuellement.



The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖




Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖




新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖




新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!




Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!




제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!












