Option
Heim
Nachricht
Wie wir die neue Familie der Gemini Robotics -Modelle aufgebaut haben

Wie wir die neue Familie der Gemini Robotics -Modelle aufgebaut haben

10. April 2025
136

Wie wir die neue Familie der Gemini Robotics -Modelle aufgebaut haben

Als Google DeepMind sich auf die neueste Ankündigung über die neuen Gemini 2.0-Modelle vorbereitete, die für die Robotik maßgeschneidert sind, motivierte Carolina Parada, die Leiterin der Robotik, ihr Team, die Technologie ein letztes Mal zu testen.

Sie forderten einen zweiarmigen ALOHA-Roboter heraus — Sie wissen schon, diese flexiblen Metallarme mit all den Gelenken und zangenartigen Händen, die Forscher so gerne verwenden —, Aufgaben zu bewältigen, die er noch nie zuvor ausgeführt hatte, mit Objekten, die er noch nie gesehen hatte. „Wir haben ihm zufällige Dinge hingeworfen, wie meinen Schuh auf den Tisch zu stellen und ihn zu bitten, ein paar Stifte hineinzulegen“, erinnert sich Carolina. „Der Roboter hielt kurz inne, um die Sache zu erfassen, und machte sich dann daran.“

Als Nächstes fanden sie einen Spielzeug-Basketballkorb und einen Ball und forderten den Roboter auf, einen „Slam Dunk“ zu machen. Carolina konnte nicht anders, als vor Stolz zu strahlen, als er es schaffte.

Carolina sagt, der Slam Dunk war ein echter „Wow“-Moment.

„Wir haben Modelle trainiert, um Robotern bei spezifischen Aufgaben zu helfen und natürliche Sprache zu verstehen, aber das hier? Das war ein Wendepunkt“, erklärt Carolina. „Der Roboter hatte keinerlei Erfahrung mit Basketball oder diesem speziellen Spielzeug. Dennoch verstand er die komplexe Idee, ‚den Ball mit einem Slam Dunk zu versenken‘, und setzte sie reibungslos um. Beim ersten Versuch.

Dieser vielseitige Roboter wurde von einem Gemini Robotics-Modell angetrieben, Teil einer neuen Reihe multimodaler Modelle, die für die Robotik entwickelt wurden. Diese Modelle verbessern Gemini 2.0 durch Feinabstimmung mit robotspezifischen Daten und integrieren physische Aktionen mit den üblichen multimodalen Ausgaben von Gemini wie Text, Video und Audio. „Dieser Meilenstein bereitet die Bühne für die nächste Welle von Robotik, die in verschiedenen Anwendungen unterstützen kann“, sagte Google-CEO Sundar Pichai bei der Vorstellung der neuen Modelle auf X.

Die Gemini Robotics-Modelle sind unglaublich vielseitig, interaktiv und allgemein, sodass Roboter auf neue Objekte, Umgebungen und Anweisungen reagieren können, ohne zusätzliches Training zu benötigen. Das ist eine große Sache, angesichts der Ziele des Teams.

„Unser Ziel ist es, verkörperte KI zu schaffen, die Roboter antreibt, um alltägliche Aufgaben in der realen Welt zu bewältigen“, sagt Carolina, deren Liebe zur Robotik durch Science-Fiction-Cartoons in ihrer Kindheit und Träume von automatisierten Hausarbeiten geweckt wurde. „In Zukunft werden Roboter nur eine weitere Möglichkeit sein, wie wir mit KI interagieren, ähnlich wie unsere Telefone oder Computer — physische Akteure in unserer Welt.“

Damit Roboter ihre Aufgaben gut und sicher erledigen können, benötigen sie zwei Schlüsselfähigkeiten: Verständnis und Entscheidungsfindung sowie die Fähigkeit zu handeln. Gemini Robotics-ER, ein „verkörpertes Denken“-Modell, das auf Gemini 2.0 Flash basiert, konzentriert sich auf Ersteres. Es kann Elemente in seiner Umgebung erkennen, deren Größe und Position abschätzen und den Pfad sowie den Griff vorhersagen, der benötigt wird, um sie zu bewegen. Anschließend generiert es Code, um die Aktion auszuführen. Wir rollen dieses Modell jetzt für vertrauenswürdige Tester und Partner aus.

Google DeepMind führt auch Gemini Robotics ein, sein erstklassiges Modell für Vision-Sprache-Aktion, das es Robotern ermöglicht, eine Szene zu analysieren, mit Nutzern zu interagieren und Maßnahmen zu ergreifen. Es hat enorme Fortschritte in einem Bereich gemacht, der für Robotiker ein Problem darstellte: Geschicklichkeit. „Was für uns Menschen selbstverständlich ist, ist für Roboter schwierig“, bemerkt Carolina. „Geschicklichkeit erfordert sowohl räumliches Denken als auch komplexe physische Manipulation. In Tests hat Gemini Robotics einen neuen Maßstab für Geschicklichkeit gesetzt, indem es komplexe mehrstufige Aufgaben mit flüssigen Bewegungen und beeindruckenden Abschlusszeiten bewältigte.“

Gemini Robotics-ER ist ein Meister im verkörperten Denken und meistert Dinge wie Objekterkennung, Zeigen auf Teile von Objekten, Finden übereinstimmender Punkte und 3D-Objekterkennung.

Mit Gemini Robotics an der Spitze haben Maschinen Salate zubereitet, Kinder-Mittagessen gepackt, Spiele wie Tic-Tac-Toe gespielt und sogar einen Origami-Fuchs gebastelt.

Modelle darauf vorzubereiten, eine Vielzahl von Aufgaben zu bewältigen, war keine Kleinigkeit — vor allem, weil es dem Trend widerspricht, Modelle für eine spezifische Aufgabe zu trainieren, bis sie perfekt ist. „Wir haben auf breites Aufgabenlernen gesetzt und Modelle mit einer Menge von Aufgaben trainiert“, sagt Carolina. „Wir dachten, dass sie nach einer Weile beginnen würden, zu verallgemeinern, und wir lagen genau richtig.“

Beide Modelle können sich an verschiedene Verkörperungen anpassen, von forschungsorientierten Robotern wie dem zweiarmigen ALOHA bis hin zu humanoiden Robotern wie Apollo, entwickelt von unserem Partner Apptronik.

Diese Modelle können sich an verschiedene Formen anpassen und Aufgaben wie das Packen einer Lunchbox oder das Abwischen eines Whiteboards in verschiedenen Roboter-Körpern ausführen.

Diese Anpassungsfähigkeit ist entscheidend für eine Zukunft, in der Roboter eine Vielzahl von Rollen übernehmen könnten.

„Das Potenzial für Roboter, die diese hochgradig allgemeinen und leistungsfähigen Modelle nutzen, ist enorm und aufregend“, sagt Carolina. „Sie könnten in Branchen, in denen es komplex ist, Präzision zählt und die Räume nicht für Menschen ausgelegt sind, äußerst hilfreich sein. Und sie könnten das Leben in menschenzentrierten Räumen, wie unseren Häusern, erleichtern. Das ist noch etwas entfernt, aber diese Modelle bringen uns voran.“

Es sieht so aus, als ob Hilfe bei diesen Hausarbeiten am Horizont sein könnte — irgendwann.

Verwandter Artikel
Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt Barry Diller: Das Vertrauen in Sam Altman spielt keine Rolle, da die allgemeine künstliche Intelligenz (AGI) immer näher rückt Barry Diller, der milliardenschwere Medienmogul, hält OpenAI-CEO Sam Altman nicht für unglaubwürdig, obwohl jüngste Berichte das Gegenteil nahelegen. Bei seiner Rede auf der „Future of Everything“-Kon
YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus YouTube weitet die KI-basierte Deepfake-Erkennung auf Politiker, Regierungsvertreter und Journalisten aus Am Dienstag gab YouTube bekannt, dass es seine Deepfake-Erkennungstechnologie auf eine ausgewählte Gruppe von Regierungsbeamten, politischen Kandidaten und Journalisten ausweiten wird. Das Tool identi
Der wahre Unterschied: Nicht das eine, sondern das andere Der wahre Unterschied: Nicht das eine, sondern das andere Manchmal sind Dinge nicht nur das eine, sondern auch das andere. Der Satz „Es ist nicht nur dies – es ist auch das“ ist in KI-generierten Texten so alltäglich geworden, dass er mittlerweile mehr als n
Empfehlungen zu verwandten Spezialthemen
Schreiben Die besten KI-Assistenten für Xianxia und Wuxia: Verfassen Sie epische Kultivierungsgeschichten und Kampfkunst-Choreografien
Die besten KI-Assistenten für Xianxia und Wuxia: Verfassen Sie epische Kultivierungsgeschichten und Kampfkunst-Choreografien

Entdecken Sie die besten KI-Assistenten des Jahres 2026 für das Verfassen epischer Xianxia- und Wuxia-Geschichten. Die von XIX.AI zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, mit denen Sie den Fortschritt der Kultivierung und die Choreografie von Kampfkünsten meistern können. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie Ihr kreatives Potenzial und beginnen Sie noch heute mit dem Schreiben!

10 Tools
xix.ai
Code AI-Mobilanwendungsentwicklungstools: Erstellen Sie plattformübergreifenden Flutter- und React Native-Code auf Basis von Eingaben.
AI-Mobilanwendungsentwicklungstools: Erstellen Sie plattformübergreifenden Flutter- und React Native-Code auf Basis von Eingaben.

Entdecken Sie die besten AI-Programmierwerkzeuge für mobile Anwendungen im Jahr 2026 – geeignet für Flutter und React Native. Unsere sorgfältig ausgewählte, hochbewertete Liste bietet leistungsstarke Lösungen, die es ermöglichen, plattformübergreifenden Code auf Basis von Vorgaben zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand realer Tests – beschleunigen Sie Ihre Entwicklung und erstellen Sie bessere Anwendungen. Erfahren Sie mehr über die Rangliste auf XIX.AI!

10 Tools
xix.ai
Code Die besten KI-Generatoren für Chrome-Erweiterungen: Erstellen Sie individuelle Browser-Erweiterungen ganz ohne Programmierkenntnisse
Die besten KI-Generatoren für Chrome-Erweiterungen: Erstellen Sie individuelle Browser-Erweiterungen ganz ohne Programmierkenntnisse

Entdecken Sie die besten KI-Generatoren für Chrome-Erweiterungen des Jahres 2026 auf XIX.AI. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, unverzichtbare Tools, mit denen Sie ganz ohne Programmierkenntnisse individuelle Browser-Erweiterungen erstellen können. Vergleichen Sie kostenlose und kostenpflichtige Optionen, sehen Sie sich Praxistests an und steigern Sie Ihre Produktivität. Entdecken Sie die aktuellen Rankings und finden Sie noch heute das perfekte Tool für sich!

10 Tools
xix.ai
Text-zu-Sprache Die beste künstliche Intelligenz für mehrsprachige TTS-Technologie: Erzeugung authentischer Sprache mit Muttersprachakzent in über 50 Sprachen
Die beste künstliche Intelligenz für mehrsprachige TTS-Technologie: Erzeugung authentischer Sprache mit Muttersprachakzent in über 50 Sprachen

Entdecken Sie die besten KI-basierten, mehrsprachigen TTS-Tools von 2026 – sie ermöglichen eine authentische Aussprache in natürlicher Muttersprachentonart in über 50 Sprachen. Erfahren Sie mehr über unsere hochrangig bewerteten und sorgfältig ausgewählten Tools, inklusive Vergleichen zwischen kostenlosen und kostenpflichtigen Varianten sowie Ergebnissen aus realen Tests. Finden Sie das perfekte Tool für Ihre Bedürfnisse auf XIX.AI und öffnen Sie so neue Möglichkeiten für die globale Kommunikation – noch heute!

10 Tools
xix.ai
Besprechungsassistent Die besten AI-Tools für die Automatisierung von Besprechungen – für eine schlauere und schnellere Zusammenarbeit
Die besten AI-Tools für die Automatisierung von Besprechungen – für eine schlauere und schnellere Zusammenarbeit

Entdecken Sie die besten und am meisten bewerteten AI-Tools für die Automatisierung von Besprechungen im Jahr 2026 – sie ermöglichen eine intelligente und schnellere Zusammenarbeit. Unsere sorgfältig ausgewählte Liste bietet leistungsstarke Lösungen, mit denen Sie Notizen, Zusammenfassungen und Aufgaben automatisch erstellen können. Vergleichen Sie kostenlose und bezahlte Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings – so steigern Sie die Produktivität Ihres Teams. Entdecken Sie die besten Tools jetzt bei XIX.AI.

10 Tools
xix.ai
Prompt KI-Vorgaben für Infrastructure-as-Code: Terraform- und Docker-Konfigurationen sicher bereitstellen
KI-Vorgaben für Infrastructure-as-Code: Terraform- und Docker-Konfigurationen sicher bereitstellen

Entdecken Sie die aktuellsten und am besten bewerteten KI-Prompts für Infrastructure-as-Code aus dem Jahr 2026. Die von XIX.AI zusammengestellte Auswahl hilft Ihnen dabei, Terraform- und Docker-Konfigurationen sicher bereitzustellen, Cloud-Setups zu automatisieren und die DevOps-Produktivität zu steigern. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entdecken Sie die Möglichkeiten jetzt und sichern Sie sich Ihren KI-Vorteil.

10 Tools
xix.ai
Kommentare (24)
0/500
JoseAdams
JoseAdams 6. Januar 2026 23:30:30 MEZ

Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔

LarryEvans
LarryEvans 12. November 2025 13:30:35 MEZ

Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅

CarlGarcia
CarlGarcia 19. September 2025 06:30:33 MESZ

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez
KeithLopez 8. August 2025 19:01:00 MESZ

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller
WilliamMiller 14. April 2025 02:57:22 MESZ

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen
StephenGreen 13. April 2025 05:41:57 MESZ

新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖

OR