Как мы построили новую семейство моделей робототехники Gemini

Когда Google DeepMind готовился к своему последнему анонсу о новых моделях Gemini 2.0, разработанных для робототехники, Каролина Парада, руководитель направления робототехники, собрала свою команду, чтобы провести финальное тестирование технологии.
Они бросили вызов двухрукому роботу ALOHA — знаете, эти гибкие металлические руки с множеством суставов и клешнеобразными захватами, которые так любят использовать исследователи — справиться с задачами, с которыми он никогда раньше не сталкивался, и с объектами, которые он никогда не видел. «Мы подкинули ему всякое разное, например, поставили мой ботинок на стол и попросили засунуть несколько ручек внутрь», — вспоминает Каролина. «Робот на секунду задумался, чтобы понять суть, а затем выполнил задачу».
Затем они нашли игрушечные баскетбольные кольцо и мяч и предложили роботу сделать «слэм-данк». Каролина не могла сдержать гордости, когда робот идеально справился.
Каролина говорит, что наблюдать за слэм-данком было настоящим «вау» моментом.
«Мы уже давно обучаем модели помогать роботам с конкретными задачами и понимать естественный язык, но это? Это переломный момент», — объясняет Каролина. «У робота не было никакого опыта с баскетболом или этой конкретной игрушкой. Но он уловил сложную идею ‘сделать слэм-данк’ и выполнил её безупречно. С первой попытки.»
Этот универсальный робот работал на модели Gemini Robotics, входящей в новую партию мультимодальных моделей, разработанных для робототехники. Эти модели улучшают Gemini 2.0 за счёт тонкой настройки с данными, специфичными для роботов, интегрируя физические действия с обычными мультимодальными выходами Gemini, такими как текст, видео и аудио. «Этот рубеж открывает путь для следующей волны робототехники, которая сможет помогать в различных приложениях», — сказал генеральный директор Google Сундар Пичаи, представляя новые модели на X.
Модели Gemini Robotics невероятно универсальны, интерактивны и обобщающи, позволяя роботам реагировать на новые объекты, обстановку и инструкции без необходимости дополнительного обучения. Это большое достижение, учитывая цели команды.
«Наша цель — создать воплощённый ИИ, который позволит роботам помогать с повседневными задачами в реальном мире», — говорит Каролина, чья любовь к робототехнике зародилась благодаря научно-фантастическим мультфильмам в детстве и мечтам об автоматизированных домашних делах. «В будущем роботы станут ещё одним способом взаимодействия с ИИ, как наши телефоны или компьютеры — физическими агентами в нашем мире».
Чтобы роботы хорошо и безопасно выполняли свои задачи, им нужны две ключевые способности: понимание и принятие решений, а также способность действовать. Gemini Robotics-ER, модель «воплощённого рассуждения», построенная на базе Gemini 2.0 Flash, фокусируется на первом. Она может распознавать элементы в окружающей среде, оценивать их размер и положение, а также предсказывать траекторию и захват, необходимые для их перемещения. Затем она генерирует код для выполнения действия. Мы сейчас внедряем эту модель для доверенных тестировщиков и партнёров.
Google DeepMind также внедряет Gemini Robotics, свою топовую модель взаимодействия зрения, языка и действий, которая позволяет роботам анализировать сцену, взаимодействовать с пользователями и действовать. Она сделала огромные успехи в области, которая долгое время была проблемой для робототехников: ловкость. «То, что для нас, людей, кажется естественным, для роботов сложно», — отмечает Каролина. «Ловкость требует как пространственного мышления, так и сложной физической манипуляции. В тестах Gemini Robotics установила новый стандарт ловкости, справляясь со сложными многоэтапными задачами с плавными движениями и впечатляющим временем выполнения».
Gemini Robotics-ER отлично справляется с воплощённым рассуждением, успешно выполняя такие задачи, как обнаружение объектов, указание на части объектов, поиск соответствующих точек и 3D-обнаружение объектов.
С Gemini Robotics во главе машины готовили салаты, собирали обеды для детей, играли в игры, такие как крестики-нолики, и даже создавали оригами-лису.
Подготовка моделей к выполнению широкого спектра задач была непростой задачей — в основном потому, что это идёт вразрез с тенденцией обучать модели для одной конкретной задачи до совершенства. «Мы выбрали обучение широкому спектру задач, обучая модели на множестве заданий», — говорит Каролина. «Мы предположили, что через некоторое время они начнут обобщать, и мы оказались правы».
Обе модели могут адаптироваться к различным воплощениям, от роботов, ориентированных на исследования, таких как двухрукий ALOHA, до гуманоидных роботов, таких как Apollo, разработанный нашим партнёром Apptronik.
Эти модели могут адаптироваться к различным формам, выполняя такие задачи, как сборка ланч-бокса или протирание белой доски в разных телах роботов.
Эта адаптивность имеет решающее значение для будущего, где роботы могут выполнять множество ролей.
«Потенциал роботов, использующих эти высокообобщённые и способные модели, огромен и захватывающий», — говорит Каролина. «Они могут быть чрезвычайно полезны в отраслях, где задачи сложны, важна точность, а пространства не предназначены для людей. И они могут облегчить жизнь в пространствах, ориентированных на человека, таких как наши дома. Это ещё далеко, но эти модели продвигают нас вперёд».
Похоже, помощь с домашними делами уже не за горами — со временем.
Связанная статья
Google перезапускает функцию искусственного интеллекта "Спрашивайте фотографии" с улучшенными скоростными характеристиками
После временного прекращения тестирования Google возобновляет работу функции поиска "Спроси у фото" в Google Фото с помощью искусственного интеллекта и значительными улучшениями. Эта инновационная фун
Microsoft использует передовые модели Grok 3 от xAI в рамках нового сотрудничества в области ИИ
Ранее в этом месяце мое журналистское расследование *Notepad* раскрыло планы Microsoft по интеграции моделей ИИ Grok Элона Маска, которые теперь получили официальное подтверждение. Сегодня на ежегодно
Apple сотрудничает с Anthropic для разработки инструмента для кодирования с помощью искусственного интеллекта в Xcode
Apple и Anthropic сотрудничают в создании помощника по кодингу на базе искусственного интеллектаПо данным Bloomberg, компания Apple разрабатывает продвинутого помощника по кодингу с искусственным ин
Комментарии (22)
CarlGarcia
19 сентября 2025 г., 7:30:33 GMT+03:00
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
0
KeithLopez
8 августа 2025 г., 20:01:00 GMT+03:00
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
0
WilliamMiller
14 апреля 2025 г., 3:57:22 GMT+03:00
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖
0
StephenGreen
13 апреля 2025 г., 6:41:57 GMT+03:00
新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖
0
BenHernández
13 апреля 2025 г., 1:11:04 GMT+03:00
新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!
0
JonathanAllen
12 апреля 2025 г., 15:44:44 GMT+03:00
Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!
0
Когда Google DeepMind готовился к своему последнему анонсу о новых моделях Gemini 2.0, разработанных для робототехники, Каролина Парада, руководитель направления робототехники, собрала свою команду, чтобы провести финальное тестирование технологии.
Они бросили вызов двухрукому роботу ALOHA — знаете, эти гибкие металлические руки с множеством суставов и клешнеобразными захватами, которые так любят использовать исследователи — справиться с задачами, с которыми он никогда раньше не сталкивался, и с объектами, которые он никогда не видел. «Мы подкинули ему всякое разное, например, поставили мой ботинок на стол и попросили засунуть несколько ручек внутрь», — вспоминает Каролина. «Робот на секунду задумался, чтобы понять суть, а затем выполнил задачу».
Затем они нашли игрушечные баскетбольные кольцо и мяч и предложили роботу сделать «слэм-данк». Каролина не могла сдержать гордости, когда робот идеально справился.
«Мы уже давно обучаем модели помогать роботам с конкретными задачами и понимать естественный язык, но это? Это переломный момент», — объясняет Каролина. «У робота не было никакого опыта с баскетболом или этой конкретной игрушкой. Но он уловил сложную идею ‘сделать слэм-данк’ и выполнил её безупречно. С первой попытки.»
Этот универсальный робот работал на модели Gemini Robotics, входящей в новую партию мультимодальных моделей, разработанных для робототехники. Эти модели улучшают Gemini 2.0 за счёт тонкой настройки с данными, специфичными для роботов, интегрируя физические действия с обычными мультимодальными выходами Gemini, такими как текст, видео и аудио. «Этот рубеж открывает путь для следующей волны робототехники, которая сможет помогать в различных приложениях», — сказал генеральный директор Google Сундар Пичаи, представляя новые модели на X.
Модели Gemini Robotics невероятно универсальны, интерактивны и обобщающи, позволяя роботам реагировать на новые объекты, обстановку и инструкции без необходимости дополнительного обучения. Это большое достижение, учитывая цели команды.
«Наша цель — создать воплощённый ИИ, который позволит роботам помогать с повседневными задачами в реальном мире», — говорит Каролина, чья любовь к робототехнике зародилась благодаря научно-фантастическим мультфильмам в детстве и мечтам об автоматизированных домашних делах. «В будущем роботы станут ещё одним способом взаимодействия с ИИ, как наши телефоны или компьютеры — физическими агентами в нашем мире».
Google DeepMind также внедряет Gemini Robotics, свою топовую модель взаимодействия зрения, языка и действий, которая позволяет роботам анализировать сцену, взаимодействовать с пользователями и действовать. Она сделала огромные успехи в области, которая долгое время была проблемой для робототехников: ловкость. «То, что для нас, людей, кажется естественным, для роботов сложно», — отмечает Каролина. «Ловкость требует как пространственного мышления, так и сложной физической манипуляции. В тестах Gemini Robotics установила новый стандарт ловкости, справляясь со сложными многоэтапными задачами с плавными движениями и впечатляющим временем выполнения».
Подготовка моделей к выполнению широкого спектра задач была непростой задачей — в основном потому, что это идёт вразрез с тенденцией обучать модели для одной конкретной задачи до совершенства. «Мы выбрали обучение широкому спектру задач, обучая модели на множестве заданий», — говорит Каролина. «Мы предположили, что через некоторое время они начнут обобщать, и мы оказались правы».
Обе модели могут адаптироваться к различным воплощениям, от роботов, ориентированных на исследования, таких как двухрукий ALOHA, до гуманоидных роботов, таких как Apollo, разработанный нашим партнёром Apptronik.
«Потенциал роботов, использующих эти высокообобщённые и способные модели, огромен и захватывающий», — говорит Каролина. «Они могут быть чрезвычайно полезны в отраслях, где задачи сложны, важна точность, а пространства не предназначены для людей. И они могут облегчить жизнь в пространствах, ориентированных на человека, таких как наши дома. Это ещё далеко, но эти модели продвигают нас вперёд».
Похоже, помощь с домашними делами уже не за горами — со временем.




Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅




The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖




Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖




新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖




新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!




Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!












