Wie wir die neue Familie der Gemini Robotics -Modelle aufgebaut haben

Als Google DeepMind sich auf die neueste Ankündigung über die neuen Gemini 2.0-Modelle vorbereitete, die für die Robotik maßgeschneidert sind, motivierte Carolina Parada, die Leiterin der Robotik, ihr Team, die Technologie ein letztes Mal zu testen.
Sie forderten einen zweiarmigen ALOHA-Roboter heraus — Sie wissen schon, diese flexiblen Metallarme mit all den Gelenken und zangenartigen Händen, die Forscher so gerne verwenden —, Aufgaben zu bewältigen, die er noch nie zuvor ausgeführt hatte, mit Objekten, die er noch nie gesehen hatte. „Wir haben ihm zufällige Dinge hingeworfen, wie meinen Schuh auf den Tisch zu stellen und ihn zu bitten, ein paar Stifte hineinzulegen“, erinnert sich Carolina. „Der Roboter hielt kurz inne, um die Sache zu erfassen, und machte sich dann daran.“
Als Nächstes fanden sie einen Spielzeug-Basketballkorb und einen Ball und forderten den Roboter auf, einen „Slam Dunk“ zu machen. Carolina konnte nicht anders, als vor Stolz zu strahlen, als er es schaffte.
Carolina sagt, der Slam Dunk war ein echter „Wow“-Moment.
„Wir haben Modelle trainiert, um Robotern bei spezifischen Aufgaben zu helfen und natürliche Sprache zu verstehen, aber das hier? Das war ein Wendepunkt“, erklärt Carolina. „Der Roboter hatte keinerlei Erfahrung mit Basketball oder diesem speziellen Spielzeug. Dennoch verstand er die komplexe Idee, ‚den Ball mit einem Slam Dunk zu versenken‘, und setzte sie reibungslos um. Beim ersten Versuch.“
Dieser vielseitige Roboter wurde von einem Gemini Robotics-Modell angetrieben, Teil einer neuen Reihe multimodaler Modelle, die für die Robotik entwickelt wurden. Diese Modelle verbessern Gemini 2.0 durch Feinabstimmung mit robotspezifischen Daten und integrieren physische Aktionen mit den üblichen multimodalen Ausgaben von Gemini wie Text, Video und Audio. „Dieser Meilenstein bereitet die Bühne für die nächste Welle von Robotik, die in verschiedenen Anwendungen unterstützen kann“, sagte Google-CEO Sundar Pichai bei der Vorstellung der neuen Modelle auf X.
Die Gemini Robotics-Modelle sind unglaublich vielseitig, interaktiv und allgemein, sodass Roboter auf neue Objekte, Umgebungen und Anweisungen reagieren können, ohne zusätzliches Training zu benötigen. Das ist eine große Sache, angesichts der Ziele des Teams.
„Unser Ziel ist es, verkörperte KI zu schaffen, die Roboter antreibt, um alltägliche Aufgaben in der realen Welt zu bewältigen“, sagt Carolina, deren Liebe zur Robotik durch Science-Fiction-Cartoons in ihrer Kindheit und Träume von automatisierten Hausarbeiten geweckt wurde. „In Zukunft werden Roboter nur eine weitere Möglichkeit sein, wie wir mit KI interagieren, ähnlich wie unsere Telefone oder Computer — physische Akteure in unserer Welt.“
Damit Roboter ihre Aufgaben gut und sicher erledigen können, benötigen sie zwei Schlüsselfähigkeiten: Verständnis und Entscheidungsfindung sowie die Fähigkeit zu handeln. Gemini Robotics-ER, ein „verkörpertes Denken“-Modell, das auf Gemini 2.0 Flash basiert, konzentriert sich auf Ersteres. Es kann Elemente in seiner Umgebung erkennen, deren Größe und Position abschätzen und den Pfad sowie den Griff vorhersagen, der benötigt wird, um sie zu bewegen. Anschließend generiert es Code, um die Aktion auszuführen. Wir rollen dieses Modell jetzt für vertrauenswürdige Tester und Partner aus.
Google DeepMind führt auch Gemini Robotics ein, sein erstklassiges Modell für Vision-Sprache-Aktion, das es Robotern ermöglicht, eine Szene zu analysieren, mit Nutzern zu interagieren und Maßnahmen zu ergreifen. Es hat enorme Fortschritte in einem Bereich gemacht, der für Robotiker ein Problem darstellte: Geschicklichkeit. „Was für uns Menschen selbstverständlich ist, ist für Roboter schwierig“, bemerkt Carolina. „Geschicklichkeit erfordert sowohl räumliches Denken als auch komplexe physische Manipulation. In Tests hat Gemini Robotics einen neuen Maßstab für Geschicklichkeit gesetzt, indem es komplexe mehrstufige Aufgaben mit flüssigen Bewegungen und beeindruckenden Abschlusszeiten bewältigte.“
Gemini Robotics-ER ist ein Meister im verkörperten Denken und meistert Dinge wie Objekterkennung, Zeigen auf Teile von Objekten, Finden übereinstimmender Punkte und 3D-Objekterkennung.
Mit Gemini Robotics an der Spitze haben Maschinen Salate zubereitet, Kinder-Mittagessen gepackt, Spiele wie Tic-Tac-Toe gespielt und sogar einen Origami-Fuchs gebastelt.
Modelle darauf vorzubereiten, eine Vielzahl von Aufgaben zu bewältigen, war keine Kleinigkeit — vor allem, weil es dem Trend widerspricht, Modelle für eine spezifische Aufgabe zu trainieren, bis sie perfekt ist. „Wir haben auf breites Aufgabenlernen gesetzt und Modelle mit einer Menge von Aufgaben trainiert“, sagt Carolina. „Wir dachten, dass sie nach einer Weile beginnen würden, zu verallgemeinern, und wir lagen genau richtig.“
Beide Modelle können sich an verschiedene Verkörperungen anpassen, von forschungsorientierten Robotern wie dem zweiarmigen ALOHA bis hin zu humanoiden Robotern wie Apollo, entwickelt von unserem Partner Apptronik.
Diese Modelle können sich an verschiedene Formen anpassen und Aufgaben wie das Packen einer Lunchbox oder das Abwischen eines Whiteboards in verschiedenen Roboter-Körpern ausführen.
Diese Anpassungsfähigkeit ist entscheidend für eine Zukunft, in der Roboter eine Vielzahl von Rollen übernehmen könnten.
„Das Potenzial für Roboter, die diese hochgradig allgemeinen und leistungsfähigen Modelle nutzen, ist enorm und aufregend“, sagt Carolina. „Sie könnten in Branchen, in denen es komplex ist, Präzision zählt und die Räume nicht für Menschen ausgelegt sind, äußerst hilfreich sein. Und sie könnten das Leben in menschenzentrierten Räumen, wie unseren Häusern, erleichtern. Das ist noch etwas entfernt, aber diese Modelle bringen uns voran.“
Es sieht so aus, als ob Hilfe bei diesen Hausarbeiten am Horizont sein könnte — irgendwann.
Verwandter Artikel
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus
Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
Der wahre Unterschied: Nicht das eine, sondern das andere
Manchmal sind Dinge nicht nur das eine, sondern auch das andere. Der Satz „Es ist nicht nur dies – es ist auch das“ ist in KI-generierten Texten so alltäglich geworden, dass er mittlerweile mehr als n
Empfehlungen zu verwandten Spezialthemen
Kommentare (24)
Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔
Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

Als Google DeepMind sich auf die neueste Ankündigung über die neuen Gemini 2.0-Modelle vorbereitete, die für die Robotik maßgeschneidert sind, motivierte Carolina Parada, die Leiterin der Robotik, ihr Team, die Technologie ein letztes Mal zu testen.
Sie forderten einen zweiarmigen ALOHA-Roboter heraus — Sie wissen schon, diese flexiblen Metallarme mit all den Gelenken und zangenartigen Händen, die Forscher so gerne verwenden —, Aufgaben zu bewältigen, die er noch nie zuvor ausgeführt hatte, mit Objekten, die er noch nie gesehen hatte. „Wir haben ihm zufällige Dinge hingeworfen, wie meinen Schuh auf den Tisch zu stellen und ihn zu bitten, ein paar Stifte hineinzulegen“, erinnert sich Carolina. „Der Roboter hielt kurz inne, um die Sache zu erfassen, und machte sich dann daran.“
Als Nächstes fanden sie einen Spielzeug-Basketballkorb und einen Ball und forderten den Roboter auf, einen „Slam Dunk“ zu machen. Carolina konnte nicht anders, als vor Stolz zu strahlen, als er es schaffte.
„Wir haben Modelle trainiert, um Robotern bei spezifischen Aufgaben zu helfen und natürliche Sprache zu verstehen, aber das hier? Das war ein Wendepunkt“, erklärt Carolina. „Der Roboter hatte keinerlei Erfahrung mit Basketball oder diesem speziellen Spielzeug. Dennoch verstand er die komplexe Idee, ‚den Ball mit einem Slam Dunk zu versenken‘, und setzte sie reibungslos um. Beim ersten Versuch.“
Dieser vielseitige Roboter wurde von einem Gemini Robotics-Modell angetrieben, Teil einer neuen Reihe multimodaler Modelle, die für die Robotik entwickelt wurden. Diese Modelle verbessern Gemini 2.0 durch Feinabstimmung mit robotspezifischen Daten und integrieren physische Aktionen mit den üblichen multimodalen Ausgaben von Gemini wie Text, Video und Audio. „Dieser Meilenstein bereitet die Bühne für die nächste Welle von Robotik, die in verschiedenen Anwendungen unterstützen kann“, sagte Google-CEO Sundar Pichai bei der Vorstellung der neuen Modelle auf X.
Die Gemini Robotics-Modelle sind unglaublich vielseitig, interaktiv und allgemein, sodass Roboter auf neue Objekte, Umgebungen und Anweisungen reagieren können, ohne zusätzliches Training zu benötigen. Das ist eine große Sache, angesichts der Ziele des Teams.
„Unser Ziel ist es, verkörperte KI zu schaffen, die Roboter antreibt, um alltägliche Aufgaben in der realen Welt zu bewältigen“, sagt Carolina, deren Liebe zur Robotik durch Science-Fiction-Cartoons in ihrer Kindheit und Träume von automatisierten Hausarbeiten geweckt wurde. „In Zukunft werden Roboter nur eine weitere Möglichkeit sein, wie wir mit KI interagieren, ähnlich wie unsere Telefone oder Computer — physische Akteure in unserer Welt.“
Google DeepMind führt auch Gemini Robotics ein, sein erstklassiges Modell für Vision-Sprache-Aktion, das es Robotern ermöglicht, eine Szene zu analysieren, mit Nutzern zu interagieren und Maßnahmen zu ergreifen. Es hat enorme Fortschritte in einem Bereich gemacht, der für Robotiker ein Problem darstellte: Geschicklichkeit. „Was für uns Menschen selbstverständlich ist, ist für Roboter schwierig“, bemerkt Carolina. „Geschicklichkeit erfordert sowohl räumliches Denken als auch komplexe physische Manipulation. In Tests hat Gemini Robotics einen neuen Maßstab für Geschicklichkeit gesetzt, indem es komplexe mehrstufige Aufgaben mit flüssigen Bewegungen und beeindruckenden Abschlusszeiten bewältigte.“
Modelle darauf vorzubereiten, eine Vielzahl von Aufgaben zu bewältigen, war keine Kleinigkeit — vor allem, weil es dem Trend widerspricht, Modelle für eine spezifische Aufgabe zu trainieren, bis sie perfekt ist. „Wir haben auf breites Aufgabenlernen gesetzt und Modelle mit einer Menge von Aufgaben trainiert“, sagt Carolina. „Wir dachten, dass sie nach einer Weile beginnen würden, zu verallgemeinern, und wir lagen genau richtig.“
Beide Modelle können sich an verschiedene Verkörperungen anpassen, von forschungsorientierten Robotern wie dem zweiarmigen ALOHA bis hin zu humanoiden Robotern wie Apollo, entwickelt von unserem Partner Apptronik.
„Das Potenzial für Roboter, die diese hochgradig allgemeinen und leistungsfähigen Modelle nutzen, ist enorm und aufregend“, sagt Carolina. „Sie könnten in Branchen, in denen es komplex ist, Präzision zählt und die Räume nicht für Menschen ausgelegt sind, äußerst hilfreich sein. Und sie könnten das Leben in menschenzentrierten Räumen, wie unseren Häusern, erleichtern. Das ist noch etwas entfernt, aber diese Modelle bringen uns voran.“
Es sieht so aus, als ob Hilfe bei diesen Hausarbeiten am Horizont sein könnte — irgendwann.
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt
Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus
Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
Der wahre Unterschied: Nicht das eine, sondern das andere
Manchmal sind Dinge nicht nur das eine, sondern auch das andere. Der Satz „Es ist nicht nur dies – es ist auch das“ ist in KI-generierten Texten so alltäglich geworden, dass er mittlerweile mehr als n
Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔
Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖





Heim






