Как мы построили новую семейство моделей робототехники Gemini

Когда Google DeepMind готовился к своему последнему анонсу о новых моделях Gemini 2.0, разработанных для робототехники, Каролина Парада, руководитель направления робототехники, собрала свою команду, чтобы провести финальное тестирование технологии.
Они бросили вызов двухрукому роботу ALOHA — знаете, эти гибкие металлические руки с множеством суставов и клешнеобразными захватами, которые так любят использовать исследователи — справиться с задачами, с которыми он никогда раньше не сталкивался, и с объектами, которые он никогда не видел. «Мы подкинули ему всякое разное, например, поставили мой ботинок на стол и попросили засунуть несколько ручек внутрь», — вспоминает Каролина. «Робот на секунду задумался, чтобы понять суть, а затем выполнил задачу».
Затем они нашли игрушечные баскетбольные кольцо и мяч и предложили роботу сделать «слэм-данк». Каролина не могла сдержать гордости, когда робот идеально справился.
Каролина говорит, что наблюдать за слэм-данком было настоящим «вау» моментом.
«Мы уже давно обучаем модели помогать роботам с конкретными задачами и понимать естественный язык, но это? Это переломный момент», — объясняет Каролина. «У робота не было никакого опыта с баскетболом или этой конкретной игрушкой. Но он уловил сложную идею ‘сделать слэм-данк’ и выполнил её безупречно. С первой попытки.»
Этот универсальный робот работал на модели Gemini Robotics, входящей в новую партию мультимодальных моделей, разработанных для робототехники. Эти модели улучшают Gemini 2.0 за счёт тонкой настройки с данными, специфичными для роботов, интегрируя физические действия с обычными мультимодальными выходами Gemini, такими как текст, видео и аудио. «Этот рубеж открывает путь для следующей волны робототехники, которая сможет помогать в различных приложениях», — сказал генеральный директор Google Сундар Пичаи, представляя новые модели на X.
Модели Gemini Robotics невероятно универсальны, интерактивны и обобщающи, позволяя роботам реагировать на новые объекты, обстановку и инструкции без необходимости дополнительного обучения. Это большое достижение, учитывая цели команды.
«Наша цель — создать воплощённый ИИ, который позволит роботам помогать с повседневными задачами в реальном мире», — говорит Каролина, чья любовь к робототехнике зародилась благодаря научно-фантастическим мультфильмам в детстве и мечтам об автоматизированных домашних делах. «В будущем роботы станут ещё одним способом взаимодействия с ИИ, как наши телефоны или компьютеры — физическими агентами в нашем мире».
Чтобы роботы хорошо и безопасно выполняли свои задачи, им нужны две ключевые способности: понимание и принятие решений, а также способность действовать. Gemini Robotics-ER, модель «воплощённого рассуждения», построенная на базе Gemini 2.0 Flash, фокусируется на первом. Она может распознавать элементы в окружающей среде, оценивать их размер и положение, а также предсказывать траекторию и захват, необходимые для их перемещения. Затем она генерирует код для выполнения действия. Мы сейчас внедряем эту модель для доверенных тестировщиков и партнёров.
Google DeepMind также внедряет Gemini Robotics, свою топовую модель взаимодействия зрения, языка и действий, которая позволяет роботам анализировать сцену, взаимодействовать с пользователями и действовать. Она сделала огромные успехи в области, которая долгое время была проблемой для робототехников: ловкость. «То, что для нас, людей, кажется естественным, для роботов сложно», — отмечает Каролина. «Ловкость требует как пространственного мышления, так и сложной физической манипуляции. В тестах Gemini Robotics установила новый стандарт ловкости, справляясь со сложными многоэтапными задачами с плавными движениями и впечатляющим временем выполнения».
Gemini Robotics-ER отлично справляется с воплощённым рассуждением, успешно выполняя такие задачи, как обнаружение объектов, указание на части объектов, поиск соответствующих точек и 3D-обнаружение объектов.
С Gemini Robotics во главе машины готовили салаты, собирали обеды для детей, играли в игры, такие как крестики-нолики, и даже создавали оригами-лису.
Подготовка моделей к выполнению широкого спектра задач была непростой задачей — в основном потому, что это идёт вразрез с тенденцией обучать модели для одной конкретной задачи до совершенства. «Мы выбрали обучение широкому спектру задач, обучая модели на множестве заданий», — говорит Каролина. «Мы предположили, что через некоторое время они начнут обобщать, и мы оказались правы».
Обе модели могут адаптироваться к различным воплощениям, от роботов, ориентированных на исследования, таких как двухрукий ALOHA, до гуманоидных роботов, таких как Apollo, разработанный нашим партнёром Apptronik.
Эти модели могут адаптироваться к различным формам, выполняя такие задачи, как сборка ланч-бокса или протирание белой доски в разных телах роботов.
Эта адаптивность имеет решающее значение для будущего, где роботы могут выполнять множество ролей.
«Потенциал роботов, использующих эти высокообобщённые и способные модели, огромен и захватывающий», — говорит Каролина. «Они могут быть чрезвычайно полезны в отраслях, где задачи сложны, важна точность, а пространства не предназначены для людей. И они могут облегчить жизнь в пространствах, ориентированных на человека, таких как наши дома. Это ещё далеко, но эти модели продвигают нас вперёд».
Похоже, помощь с домашними делами уже не за горами — со временем.
Связанная статья
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов
Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
Настоящее отличие: не в одном, а в другом
Иногда вещи бывают не только одним, но и другим. Фраза «Это не только это — это и то» стала настолько распространенной в текстах, сгенерированных ИИ, что теперь она служит не просто признаком синтетич
Рекомендации по связанным специальным темам
Комментарии (24)
Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔
Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

Когда Google DeepMind готовился к своему последнему анонсу о новых моделях Gemini 2.0, разработанных для робототехники, Каролина Парада, руководитель направления робототехники, собрала свою команду, чтобы провести финальное тестирование технологии.
Они бросили вызов двухрукому роботу ALOHA — знаете, эти гибкие металлические руки с множеством суставов и клешнеобразными захватами, которые так любят использовать исследователи — справиться с задачами, с которыми он никогда раньше не сталкивался, и с объектами, которые он никогда не видел. «Мы подкинули ему всякое разное, например, поставили мой ботинок на стол и попросили засунуть несколько ручек внутрь», — вспоминает Каролина. «Робот на секунду задумался, чтобы понять суть, а затем выполнил задачу».
Затем они нашли игрушечные баскетбольные кольцо и мяч и предложили роботу сделать «слэм-данк». Каролина не могла сдержать гордости, когда робот идеально справился.
«Мы уже давно обучаем модели помогать роботам с конкретными задачами и понимать естественный язык, но это? Это переломный момент», — объясняет Каролина. «У робота не было никакого опыта с баскетболом или этой конкретной игрушкой. Но он уловил сложную идею ‘сделать слэм-данк’ и выполнил её безупречно. С первой попытки.»
Этот универсальный робот работал на модели Gemini Robotics, входящей в новую партию мультимодальных моделей, разработанных для робототехники. Эти модели улучшают Gemini 2.0 за счёт тонкой настройки с данными, специфичными для роботов, интегрируя физические действия с обычными мультимодальными выходами Gemini, такими как текст, видео и аудио. «Этот рубеж открывает путь для следующей волны робототехники, которая сможет помогать в различных приложениях», — сказал генеральный директор Google Сундар Пичаи, представляя новые модели на X.
Модели Gemini Robotics невероятно универсальны, интерактивны и обобщающи, позволяя роботам реагировать на новые объекты, обстановку и инструкции без необходимости дополнительного обучения. Это большое достижение, учитывая цели команды.
«Наша цель — создать воплощённый ИИ, который позволит роботам помогать с повседневными задачами в реальном мире», — говорит Каролина, чья любовь к робототехнике зародилась благодаря научно-фантастическим мультфильмам в детстве и мечтам об автоматизированных домашних делах. «В будущем роботы станут ещё одним способом взаимодействия с ИИ, как наши телефоны или компьютеры — физическими агентами в нашем мире».
Google DeepMind также внедряет Gemini Robotics, свою топовую модель взаимодействия зрения, языка и действий, которая позволяет роботам анализировать сцену, взаимодействовать с пользователями и действовать. Она сделала огромные успехи в области, которая долгое время была проблемой для робототехников: ловкость. «То, что для нас, людей, кажется естественным, для роботов сложно», — отмечает Каролина. «Ловкость требует как пространственного мышления, так и сложной физической манипуляции. В тестах Gemini Robotics установила новый стандарт ловкости, справляясь со сложными многоэтапными задачами с плавными движениями и впечатляющим временем выполнения».
Подготовка моделей к выполнению широкого спектра задач была непростой задачей — в основном потому, что это идёт вразрез с тенденцией обучать модели для одной конкретной задачи до совершенства. «Мы выбрали обучение широкому спектру задач, обучая модели на множестве заданий», — говорит Каролина. «Мы предположили, что через некоторое время они начнут обобщать, и мы оказались правы».
Обе модели могут адаптироваться к различным воплощениям, от роботов, ориентированных на исследования, таких как двухрукий ALOHA, до гуманоидных роботов, таких как Apollo, разработанный нашим партнёром Apptronik.
«Потенциал роботов, использующих эти высокообобщённые и способные модели, огромен и захватывающий», — говорит Каролина. «Они могут быть чрезвычайно полезны в отраслях, где задачи сложны, важна точность, а пространства не предназначены для людей. И они могут облегчить жизнь в пространствах, ориентированных на человека, таких как наши дома. Это ещё далеко, но эти модели продвигают нас вперёд».
Похоже, помощь с домашними делами уже не за горами — со временем.
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов
Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
Настоящее отличие: не в одном, а в другом
Иногда вещи бывают не только одним, но и другим. Фраза «Это не только это — это и то» стала настолько распространенной в текстах, сгенерированных ИИ, что теперь она служит не просто признаком синтетич
Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔
Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖





Дом






