Wie wir die neue Familie der Gemini Robotics -Modelle aufgebaut haben

Als Google DeepMind sich auf die neueste Ankündigung über die neuen Gemini 2.0-Modelle vorbereitete, die für die Robotik maßgeschneidert sind, motivierte Carolina Parada, die Leiterin der Robotik, ihr Team, die Technologie ein letztes Mal zu testen.
Sie forderten einen zweiarmigen ALOHA-Roboter heraus — Sie wissen schon, diese flexiblen Metallarme mit all den Gelenken und zangenartigen Händen, die Forscher so gerne verwenden —, Aufgaben zu bewältigen, die er noch nie zuvor ausgeführt hatte, mit Objekten, die er noch nie gesehen hatte. „Wir haben ihm zufällige Dinge hingeworfen, wie meinen Schuh auf den Tisch zu stellen und ihn zu bitten, ein paar Stifte hineinzulegen“, erinnert sich Carolina. „Der Roboter hielt kurz inne, um die Sache zu erfassen, und machte sich dann daran.“
Als Nächstes fanden sie einen Spielzeug-Basketballkorb und einen Ball und forderten den Roboter auf, einen „Slam Dunk“ zu machen. Carolina konnte nicht anders, als vor Stolz zu strahlen, als er es schaffte.
Carolina sagt, der Slam Dunk war ein echter „Wow“-Moment.
„Wir haben Modelle trainiert, um Robotern bei spezifischen Aufgaben zu helfen und natürliche Sprache zu verstehen, aber das hier? Das war ein Wendepunkt“, erklärt Carolina. „Der Roboter hatte keinerlei Erfahrung mit Basketball oder diesem speziellen Spielzeug. Dennoch verstand er die komplexe Idee, ‚den Ball mit einem Slam Dunk zu versenken‘, und setzte sie reibungslos um. Beim ersten Versuch.“
Dieser vielseitige Roboter wurde von einem Gemini Robotics-Modell angetrieben, Teil einer neuen Reihe multimodaler Modelle, die für die Robotik entwickelt wurden. Diese Modelle verbessern Gemini 2.0 durch Feinabstimmung mit robotspezifischen Daten und integrieren physische Aktionen mit den üblichen multimodalen Ausgaben von Gemini wie Text, Video und Audio. „Dieser Meilenstein bereitet die Bühne für die nächste Welle von Robotik, die in verschiedenen Anwendungen unterstützen kann“, sagte Google-CEO Sundar Pichai bei der Vorstellung der neuen Modelle auf X.
Die Gemini Robotics-Modelle sind unglaublich vielseitig, interaktiv und allgemein, sodass Roboter auf neue Objekte, Umgebungen und Anweisungen reagieren können, ohne zusätzliches Training zu benötigen. Das ist eine große Sache, angesichts der Ziele des Teams.
„Unser Ziel ist es, verkörperte KI zu schaffen, die Roboter antreibt, um alltägliche Aufgaben in der realen Welt zu bewältigen“, sagt Carolina, deren Liebe zur Robotik durch Science-Fiction-Cartoons in ihrer Kindheit und Träume von automatisierten Hausarbeiten geweckt wurde. „In Zukunft werden Roboter nur eine weitere Möglichkeit sein, wie wir mit KI interagieren, ähnlich wie unsere Telefone oder Computer — physische Akteure in unserer Welt.“
Damit Roboter ihre Aufgaben gut und sicher erledigen können, benötigen sie zwei Schlüsselfähigkeiten: Verständnis und Entscheidungsfindung sowie die Fähigkeit zu handeln. Gemini Robotics-ER, ein „verkörpertes Denken“-Modell, das auf Gemini 2.0 Flash basiert, konzentriert sich auf Ersteres. Es kann Elemente in seiner Umgebung erkennen, deren Größe und Position abschätzen und den Pfad sowie den Griff vorhersagen, der benötigt wird, um sie zu bewegen. Anschließend generiert es Code, um die Aktion auszuführen. Wir rollen dieses Modell jetzt für vertrauenswürdige Tester und Partner aus.
Google DeepMind führt auch Gemini Robotics ein, sein erstklassiges Modell für Vision-Sprache-Aktion, das es Robotern ermöglicht, eine Szene zu analysieren, mit Nutzern zu interagieren und Maßnahmen zu ergreifen. Es hat enorme Fortschritte in einem Bereich gemacht, der für Robotiker ein Problem darstellte: Geschicklichkeit. „Was für uns Menschen selbstverständlich ist, ist für Roboter schwierig“, bemerkt Carolina. „Geschicklichkeit erfordert sowohl räumliches Denken als auch komplexe physische Manipulation. In Tests hat Gemini Robotics einen neuen Maßstab für Geschicklichkeit gesetzt, indem es komplexe mehrstufige Aufgaben mit flüssigen Bewegungen und beeindruckenden Abschlusszeiten bewältigte.“
Gemini Robotics-ER ist ein Meister im verkörperten Denken und meistert Dinge wie Objekterkennung, Zeigen auf Teile von Objekten, Finden übereinstimmender Punkte und 3D-Objekterkennung.
Mit Gemini Robotics an der Spitze haben Maschinen Salate zubereitet, Kinder-Mittagessen gepackt, Spiele wie Tic-Tac-Toe gespielt und sogar einen Origami-Fuchs gebastelt.
Modelle darauf vorzubereiten, eine Vielzahl von Aufgaben zu bewältigen, war keine Kleinigkeit — vor allem, weil es dem Trend widerspricht, Modelle für eine spezifische Aufgabe zu trainieren, bis sie perfekt ist. „Wir haben auf breites Aufgabenlernen gesetzt und Modelle mit einer Menge von Aufgaben trainiert“, sagt Carolina. „Wir dachten, dass sie nach einer Weile beginnen würden, zu verallgemeinern, und wir lagen genau richtig.“
Beide Modelle können sich an verschiedene Verkörperungen anpassen, von forschungsorientierten Robotern wie dem zweiarmigen ALOHA bis hin zu humanoiden Robotern wie Apollo, entwickelt von unserem Partner Apptronik.
Diese Modelle können sich an verschiedene Formen anpassen und Aufgaben wie das Packen einer Lunchbox oder das Abwischen eines Whiteboards in verschiedenen Roboter-Körpern ausführen.
Diese Anpassungsfähigkeit ist entscheidend für eine Zukunft, in der Roboter eine Vielzahl von Rollen übernehmen könnten.
„Das Potenzial für Roboter, die diese hochgradig allgemeinen und leistungsfähigen Modelle nutzen, ist enorm und aufregend“, sagt Carolina. „Sie könnten in Branchen, in denen es komplex ist, Präzision zählt und die Räume nicht für Menschen ausgelegt sind, äußerst hilfreich sein. Und sie könnten das Leben in menschenzentrierten Räumen, wie unseren Häusern, erleichtern. Das ist noch etwas entfernt, aber diese Modelle bringen uns voran.“
Es sieht so aus, als ob Hilfe bei diesen Hausarbeiten am Horizont sein könnte — irgendwann.
Verwandter Artikel
Durch Investitionen in Arbeitskräfte und Energieinfrastruktur das Wachstum von KI freisetzen
KI bietet den Vereinigten Staaten eine transformative Chance, Innovation und wirtschaftliches Wachstum zu fördern. Ihre Einführung wird die Wirtschaft ankurbeln, Arbeitsplätze schaffen und den wissens
Adobe und Figma Integrieren OpenAIs Fortschrittliches Bildgenerierungsmodell
OpenAIs verbesserte Bildgenerierung in ChatGPT hat einen Anstieg der Nutzerzahlen ausgelöst, angetrieben durch die Fähigkeit, Visuals im Stil von Studio Ghibli und einzigartige Designs zu erstellen, u
Tech-Giganten gespalten über EU-KI-Kodex, da Frist für Einhaltung naht
Der EU-KI-Allgemeinkodex hat deutliche Unterschiede zwischen führenden Technologieunternehmen offenbart. Microsoft hat seine Absicht bekundet, den freiwilligen KI-Konformitätsrahmen der Europäischen U
Kommentare (21)
0/200
KeithLopez
8. August 2025 19:01:00 MESZ
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
0
WilliamMiller
14. April 2025 02:57:22 MESZ
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖
0
StephenGreen
13. April 2025 05:41:57 MESZ
新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖
0
BenHernández
13. April 2025 00:11:04 MESZ
新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!
0
JonathanAllen
12. April 2025 14:44:44 MESZ
Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!
0
DonaldSanchez
12. April 2025 04:55:17 MESZ
제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!
0
Als Google DeepMind sich auf die neueste Ankündigung über die neuen Gemini 2.0-Modelle vorbereitete, die für die Robotik maßgeschneidert sind, motivierte Carolina Parada, die Leiterin der Robotik, ihr Team, die Technologie ein letztes Mal zu testen.
Sie forderten einen zweiarmigen ALOHA-Roboter heraus — Sie wissen schon, diese flexiblen Metallarme mit all den Gelenken und zangenartigen Händen, die Forscher so gerne verwenden —, Aufgaben zu bewältigen, die er noch nie zuvor ausgeführt hatte, mit Objekten, die er noch nie gesehen hatte. „Wir haben ihm zufällige Dinge hingeworfen, wie meinen Schuh auf den Tisch zu stellen und ihn zu bitten, ein paar Stifte hineinzulegen“, erinnert sich Carolina. „Der Roboter hielt kurz inne, um die Sache zu erfassen, und machte sich dann daran.“
Als Nächstes fanden sie einen Spielzeug-Basketballkorb und einen Ball und forderten den Roboter auf, einen „Slam Dunk“ zu machen. Carolina konnte nicht anders, als vor Stolz zu strahlen, als er es schaffte.
„Wir haben Modelle trainiert, um Robotern bei spezifischen Aufgaben zu helfen und natürliche Sprache zu verstehen, aber das hier? Das war ein Wendepunkt“, erklärt Carolina. „Der Roboter hatte keinerlei Erfahrung mit Basketball oder diesem speziellen Spielzeug. Dennoch verstand er die komplexe Idee, ‚den Ball mit einem Slam Dunk zu versenken‘, und setzte sie reibungslos um. Beim ersten Versuch.“
Dieser vielseitige Roboter wurde von einem Gemini Robotics-Modell angetrieben, Teil einer neuen Reihe multimodaler Modelle, die für die Robotik entwickelt wurden. Diese Modelle verbessern Gemini 2.0 durch Feinabstimmung mit robotspezifischen Daten und integrieren physische Aktionen mit den üblichen multimodalen Ausgaben von Gemini wie Text, Video und Audio. „Dieser Meilenstein bereitet die Bühne für die nächste Welle von Robotik, die in verschiedenen Anwendungen unterstützen kann“, sagte Google-CEO Sundar Pichai bei der Vorstellung der neuen Modelle auf X.
Die Gemini Robotics-Modelle sind unglaublich vielseitig, interaktiv und allgemein, sodass Roboter auf neue Objekte, Umgebungen und Anweisungen reagieren können, ohne zusätzliches Training zu benötigen. Das ist eine große Sache, angesichts der Ziele des Teams.
„Unser Ziel ist es, verkörperte KI zu schaffen, die Roboter antreibt, um alltägliche Aufgaben in der realen Welt zu bewältigen“, sagt Carolina, deren Liebe zur Robotik durch Science-Fiction-Cartoons in ihrer Kindheit und Träume von automatisierten Hausarbeiten geweckt wurde. „In Zukunft werden Roboter nur eine weitere Möglichkeit sein, wie wir mit KI interagieren, ähnlich wie unsere Telefone oder Computer — physische Akteure in unserer Welt.“
Google DeepMind führt auch Gemini Robotics ein, sein erstklassiges Modell für Vision-Sprache-Aktion, das es Robotern ermöglicht, eine Szene zu analysieren, mit Nutzern zu interagieren und Maßnahmen zu ergreifen. Es hat enorme Fortschritte in einem Bereich gemacht, der für Robotiker ein Problem darstellte: Geschicklichkeit. „Was für uns Menschen selbstverständlich ist, ist für Roboter schwierig“, bemerkt Carolina. „Geschicklichkeit erfordert sowohl räumliches Denken als auch komplexe physische Manipulation. In Tests hat Gemini Robotics einen neuen Maßstab für Geschicklichkeit gesetzt, indem es komplexe mehrstufige Aufgaben mit flüssigen Bewegungen und beeindruckenden Abschlusszeiten bewältigte.“
Modelle darauf vorzubereiten, eine Vielzahl von Aufgaben zu bewältigen, war keine Kleinigkeit — vor allem, weil es dem Trend widerspricht, Modelle für eine spezifische Aufgabe zu trainieren, bis sie perfekt ist. „Wir haben auf breites Aufgabenlernen gesetzt und Modelle mit einer Menge von Aufgaben trainiert“, sagt Carolina. „Wir dachten, dass sie nach einer Weile beginnen würden, zu verallgemeinern, und wir lagen genau richtig.“
Beide Modelle können sich an verschiedene Verkörperungen anpassen, von forschungsorientierten Robotern wie dem zweiarmigen ALOHA bis hin zu humanoiden Robotern wie Apollo, entwickelt von unserem Partner Apptronik.
„Das Potenzial für Roboter, die diese hochgradig allgemeinen und leistungsfähigen Modelle nutzen, ist enorm und aufregend“, sagt Carolina. „Sie könnten in Branchen, in denen es komplex ist, Präzision zählt und die Räume nicht für Menschen ausgelegt sind, äußerst hilfreich sein. Und sie könnten das Leben in menschenzentrierten Räumen, wie unseren Häusern, erleichtern. Das ist noch etwas entfernt, aber diese Modelle bringen uns voran.“
Es sieht so aus, als ob Hilfe bei diesen Hausarbeiten am Horizont sein könnte — irgendwann.



The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖




Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖




新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖




新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!




Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!




제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!












