Wie wir die neue Familie der Gemini Robotics -Modelle aufgebaut haben

Heim

Nachricht

10. April 2025

JimmyKing

# ai # Gemini

Wie wir die neue Familie der Gemini Robotics -Modelle aufgebaut haben

Als Google DeepMind sich auf die neueste Ankündigung über die neuen Gemini 2.0-Modelle vorbereitete, die für die Robotik maßgeschneidert sind, motivierte Carolina Parada, die Leiterin der Robotik, ihr Team, die Technologie ein letztes Mal zu testen.

Sie forderten einen zweiarmigen ALOHA-Roboter heraus — Sie wissen schon, diese flexiblen Metallarme mit all den Gelenken und zangenartigen Händen, die Forscher so gerne verwenden —, Aufgaben zu bewältigen, die er noch nie zuvor ausgeführt hatte, mit Objekten, die er noch nie gesehen hatte. „Wir haben ihm zufällige Dinge hingeworfen, wie meinen Schuh auf den Tisch zu stellen und ihn zu bitten, ein paar Stifte hineinzulegen“, erinnert sich Carolina. „Der Roboter hielt kurz inne, um die Sache zu erfassen, und machte sich dann daran.“

Als Nächstes fanden sie einen Spielzeug-Basketballkorb und einen Ball und forderten den Roboter auf, einen „Slam Dunk“ zu machen. Carolina konnte nicht anders, als vor Stolz zu strahlen, als er es schaffte.

Carolina sagt, der Slam Dunk war ein echter „Wow“-Moment.

„Wir haben Modelle trainiert, um Robotern bei spezifischen Aufgaben zu helfen und natürliche Sprache zu verstehen, aber das hier? Das war ein Wendepunkt“, erklärt Carolina. „Der Roboter hatte keinerlei Erfahrung mit Basketball oder diesem speziellen Spielzeug. Dennoch verstand er die komplexe Idee, ‚den Ball mit einem Slam Dunk zu versenken‘, und setzte sie reibungslos um. Beim ersten Versuch.“

Dieser vielseitige Roboter wurde von einem Gemini Robotics-Modell angetrieben, Teil einer neuen Reihe multimodaler Modelle, die für die Robotik entwickelt wurden. Diese Modelle verbessern Gemini 2.0 durch Feinabstimmung mit robotspezifischen Daten und integrieren physische Aktionen mit den üblichen multimodalen Ausgaben von Gemini wie Text, Video und Audio. „Dieser Meilenstein bereitet die Bühne für die nächste Welle von Robotik, die in verschiedenen Anwendungen unterstützen kann“, sagte Google-CEO Sundar Pichai bei der Vorstellung der neuen Modelle auf X.

Die Gemini Robotics-Modelle sind unglaublich vielseitig, interaktiv und allgemein, sodass Roboter auf neue Objekte, Umgebungen und Anweisungen reagieren können, ohne zusätzliches Training zu benötigen. Das ist eine große Sache, angesichts der Ziele des Teams.

„Unser Ziel ist es, verkörperte KI zu schaffen, die Roboter antreibt, um alltägliche Aufgaben in der realen Welt zu bewältigen“, sagt Carolina, deren Liebe zur Robotik durch Science-Fiction-Cartoons in ihrer Kindheit und Träume von automatisierten Hausarbeiten geweckt wurde. „In Zukunft werden Roboter nur eine weitere Möglichkeit sein, wie wir mit KI interagieren, ähnlich wie unsere Telefone oder Computer — physische Akteure in unserer Welt.“

Damit Roboter ihre Aufgaben gut und sicher erledigen können, benötigen sie zwei Schlüsselfähigkeiten: Verständnis und Entscheidungsfindung sowie die Fähigkeit zu handeln. Gemini Robotics-ER, ein „verkörpertes Denken“-Modell, das auf Gemini 2.0 Flash basiert, konzentriert sich auf Ersteres. Es kann Elemente in seiner Umgebung erkennen, deren Größe und Position abschätzen und den Pfad sowie den Griff vorhersagen, der benötigt wird, um sie zu bewegen. Anschließend generiert es Code, um die Aktion auszuführen. Wir rollen dieses Modell jetzt für vertrauenswürdige Tester und Partner aus.

Google DeepMind führt auch Gemini Robotics ein, sein erstklassiges Modell für Vision-Sprache-Aktion, das es Robotern ermöglicht, eine Szene zu analysieren, mit Nutzern zu interagieren und Maßnahmen zu ergreifen. Es hat enorme Fortschritte in einem Bereich gemacht, der für Robotiker ein Problem darstellte: Geschicklichkeit. „Was für uns Menschen selbstverständlich ist, ist für Roboter schwierig“, bemerkt Carolina. „Geschicklichkeit erfordert sowohl räumliches Denken als auch komplexe physische Manipulation. In Tests hat Gemini Robotics einen neuen Maßstab für Geschicklichkeit gesetzt, indem es komplexe mehrstufige Aufgaben mit flüssigen Bewegungen und beeindruckenden Abschlusszeiten bewältigte.“

Gemini Robotics-ER ist ein Meister im verkörperten Denken und meistert Dinge wie Objekterkennung, Zeigen auf Teile von Objekten, Finden übereinstimmender Punkte und 3D-Objekterkennung.

Mit Gemini Robotics an der Spitze haben Maschinen Salate zubereitet, Kinder-Mittagessen gepackt, Spiele wie Tic-Tac-Toe gespielt und sogar einen Origami-Fuchs gebastelt.

Modelle darauf vorzubereiten, eine Vielzahl von Aufgaben zu bewältigen, war keine Kleinigkeit — vor allem, weil es dem Trend widerspricht, Modelle für eine spezifische Aufgabe zu trainieren, bis sie perfekt ist. „Wir haben auf breites Aufgabenlernen gesetzt und Modelle mit einer Menge von Aufgaben trainiert“, sagt Carolina. „Wir dachten, dass sie nach einer Weile beginnen würden, zu verallgemeinern, und wir lagen genau richtig.“

Beide Modelle können sich an verschiedene Verkörperungen anpassen, von forschungsorientierten Robotern wie dem zweiarmigen ALOHA bis hin zu humanoiden Robotern wie Apollo, entwickelt von unserem Partner Apptronik.

Diese Modelle können sich an verschiedene Formen anpassen und Aufgaben wie das Packen einer Lunchbox oder das Abwischen eines Whiteboards in verschiedenen Roboter-Körpern ausführen.

Diese Anpassungsfähigkeit ist entscheidend für eine Zukunft, in der Roboter eine Vielzahl von Rollen übernehmen könnten.

„Das Potenzial für Roboter, die diese hochgradig allgemeinen und leistungsfähigen Modelle nutzen, ist enorm und aufregend“, sagt Carolina. „Sie könnten in Branchen, in denen es komplex ist, Präzision zählt und die Räume nicht für Menschen ausgelegt sind, äußerst hilfreich sein. Und sie könnten das Leben in menschenzentrierten Räumen, wie unseren Häusern, erleichtern. Das ist noch etwas entfernt, aber diese Modelle bringen uns voran.“

Es sieht so aus, als ob Hilfe bei diesen Hausarbeiten am Horizont sein könnte — irgendwann.

Verwandter Artikel

Google führt das KI-gestützte "Ask Photos" mit verbesserten Geschwindigkeitsfunktionen neu ein Nach einem vorübergehenden Teststopp führt Google seine KI-gesteuerte Suchfunktion "Ask Photos" in Google Fotos mit erheblichen Verbesserungen wieder ein. Diese innovative Funktion, die auf der KI-Tec

Microsoft hostet die fortschrittlichen Grok 3-Modelle von xAI in neuer KI-Kooperation Anfang des Monats deckte mein *Notepad* investigativer Journalismus Microsofts Pläne zur Integration der Grok-KI-Modelle von Elon Musk auf - Enthüllungen, die nun offiziell bestätigt wurden. Auf Micro

Apple entwickelt gemeinsam mit Anthropic ein KI-Codierungstool für Xcode Apple und Anthropic arbeiten gemeinsam an KI-gestütztem ProgrammierassistentenLaut Bloomberg entwickelt Apple einen fortschrittlichen KI-Code-Assistenten, der direkt in Xcode, das Flaggschiff der Ap

Kommentare (22)

0/200

Einreichen

CarlGarcia

19. September 2025 06:30:33 MESZ

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez

8. August 2025 19:01:00 MESZ

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller

14. April 2025 02:57:22 MESZ

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen

13. April 2025 05:41:57 MESZ

新しいジェミニロボティクスモデルは驚異的です！ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール！🤖

BenHernández

13. April 2025 00:11:04 MESZ

新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする！二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど！

JonathanAllen

12. April 2025 14:44:44 MESZ

Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung Die KI von Cambium verwandelt Abfall Holz in Holz OpenAI verbessert den AI -Sprachassistenten für bessere Chats So stellen Sie sicher, dass Ihre Daten für die KI -Integration vertrauenswürdig sind NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung Google nutzt KI, um über 39 Millionen Anzeigenkonten für mutmaßlichen Betrug auszusetzen

Mehr

Vorgestellt