вариант
Дом
Новости
Как мы построили новую семейство моделей робототехники Gemini

Как мы построили новую семейство моделей робототехники Gemini

10 апреля 2025 г.
136

Как мы построили новую семейство моделей робототехники Gemini

Когда Google DeepMind готовился к своему последнему анонсу о новых моделях Gemini 2.0, разработанных для робототехники, Каролина Парада, руководитель направления робототехники, собрала свою команду, чтобы провести финальное тестирование технологии.

Они бросили вызов двухрукому роботу ALOHA — знаете, эти гибкие металлические руки с множеством суставов и клешнеобразными захватами, которые так любят использовать исследователи — справиться с задачами, с которыми он никогда раньше не сталкивался, и с объектами, которые он никогда не видел. «Мы подкинули ему всякое разное, например, поставили мой ботинок на стол и попросили засунуть несколько ручек внутрь», — вспоминает Каролина. «Робот на секунду задумался, чтобы понять суть, а затем выполнил задачу».

Затем они нашли игрушечные баскетбольные кольцо и мяч и предложили роботу сделать «слэм-данк». Каролина не могла сдержать гордости, когда робот идеально справился.

Каролина говорит, что наблюдать за слэм-данком было настоящим «вау» моментом.

«Мы уже давно обучаем модели помогать роботам с конкретными задачами и понимать естественный язык, но это? Это переломный момент», — объясняет Каролина. «У робота не было никакого опыта с баскетболом или этой конкретной игрушкой. Но он уловил сложную идею ‘сделать слэм-данк’ и выполнил её безупречно. С первой попытки.»

Этот универсальный робот работал на модели Gemini Robotics, входящей в новую партию мультимодальных моделей, разработанных для робототехники. Эти модели улучшают Gemini 2.0 за счёт тонкой настройки с данными, специфичными для роботов, интегрируя физические действия с обычными мультимодальными выходами Gemini, такими как текст, видео и аудио. «Этот рубеж открывает путь для следующей волны робототехники, которая сможет помогать в различных приложениях», — сказал генеральный директор Google Сундар Пичаи, представляя новые модели на X.

Модели Gemini Robotics невероятно универсальны, интерактивны и обобщающи, позволяя роботам реагировать на новые объекты, обстановку и инструкции без необходимости дополнительного обучения. Это большое достижение, учитывая цели команды.

«Наша цель — создать воплощённый ИИ, который позволит роботам помогать с повседневными задачами в реальном мире», — говорит Каролина, чья любовь к робототехнике зародилась благодаря научно-фантастическим мультфильмам в детстве и мечтам об автоматизированных домашних делах. «В будущем роботы станут ещё одним способом взаимодействия с ИИ, как наши телефоны или компьютеры — физическими агентами в нашем мире».

Чтобы роботы хорошо и безопасно выполняли свои задачи, им нужны две ключевые способности: понимание и принятие решений, а также способность действовать. Gemini Robotics-ER, модель «воплощённого рассуждения», построенная на базе Gemini 2.0 Flash, фокусируется на первом. Она может распознавать элементы в окружающей среде, оценивать их размер и положение, а также предсказывать траекторию и захват, необходимые для их перемещения. Затем она генерирует код для выполнения действия. Мы сейчас внедряем эту модель для доверенных тестировщиков и партнёров.

Google DeepMind также внедряет Gemini Robotics, свою топовую модель взаимодействия зрения, языка и действий, которая позволяет роботам анализировать сцену, взаимодействовать с пользователями и действовать. Она сделала огромные успехи в области, которая долгое время была проблемой для робототехников: ловкость. «То, что для нас, людей, кажется естественным, для роботов сложно», — отмечает Каролина. «Ловкость требует как пространственного мышления, так и сложной физической манипуляции. В тестах Gemini Robotics установила новый стандарт ловкости, справляясь со сложными многоэтапными задачами с плавными движениями и впечатляющим временем выполнения».

Gemini Robotics-ER отлично справляется с воплощённым рассуждением, успешно выполняя такие задачи, как обнаружение объектов, указание на части объектов, поиск соответствующих точек и 3D-обнаружение объектов.

С Gemini Robotics во главе машины готовили салаты, собирали обеды для детей, играли в игры, такие как крестики-нолики, и даже создавали оригами-лису.

Подготовка моделей к выполнению широкого спектра задач была непростой задачей — в основном потому, что это идёт вразрез с тенденцией обучать модели для одной конкретной задачи до совершенства. «Мы выбрали обучение широкому спектру задач, обучая модели на множестве заданий», — говорит Каролина. «Мы предположили, что через некоторое время они начнут обобщать, и мы оказались правы».

Обе модели могут адаптироваться к различным воплощениям, от роботов, ориентированных на исследования, таких как двухрукий ALOHA, до гуманоидных роботов, таких как Apollo, разработанный нашим партнёром Apptronik.

Эти модели могут адаптироваться к различным формам, выполняя такие задачи, как сборка ланч-бокса или протирание белой доски в разных телах роботов.

Эта адаптивность имеет решающее значение для будущего, где роботы могут выполнять множество ролей.

«Потенциал роботов, использующих эти высокообобщённые и способные модели, огромен и захватывающий», — говорит Каролина. «Они могут быть чрезвычайно полезны в отраслях, где задачи сложны, важна точность, а пространства не предназначены для людей. И они могут облегчить жизнь в пространствах, ориентированных на человека, таких как наши дома. Это ещё далеко, но эти модели продвигают нас вперёд».

Похоже, помощь с домашними делами уже не за горами — со временем.

Связанная статья
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
Настоящее отличие: не в одном, а в другом Настоящее отличие: не в одном, а в другом Иногда вещи бывают не только одним, но и другим. Фраза «Это не только это — это и то» стала настолько распространенной в текстах, сгенерированных ИИ, что теперь она служит не просто признаком синтетич
Рекомендации по связанным специальным темам
письмо Лучшие помощники по жанрам «сянься» и «уся» на базе ИИ: создавайте эпические истории о духовном росте и хореографию боевых искусств
Лучшие помощники по жанрам «сянься» и «уся» на базе ИИ: создавайте эпические истории о духовном росте и хореографию боевых искусств

Откройте для себя лучшие ИИ-помощники 2026 года для создания эпических историй в жанрах сянься и уся. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, которые помогут вам освоить систему развития персонажей и постановку боевых сцен. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните писать уже сегодня!

10 инструментов
xix.ai
код Инструменты для программирования мобильных приложений на основе технологий ИИ: генерация кода для платформFlutter и React Native на основе вводимых пользователем данных
Инструменты для программирования мобильных приложений на основе технологий ИИ: генерация кода для платформFlutter и React Native на основе вводимых пользователем данных

Откройте для себя лучшие инструменты для программирования в области искусственного интеллекта на мобильных устройствах в 2026 году, подходящие для использования с фреймворками Flutter и React Native. Наш отобранный список включает мощные решения, способные изменить ход разработки приложений, позволяющие генерировать код, работающий на различных платформах, на основе предоставленных инструкций. Сравните бесплатные и платные варианты с использованием реальных примеров тестирования. Ускорьте процесс разработки и создавайте качественные приложения. Ознакомьтесь с рейтингом на сайте XIX.AI прямо сейчас!

10 инструментов
xix.ai
код Лучшие генераторы расширений для Chrome на базе ИИ: создавайте собственные надстройки для браузера без навыков программирования
Лучшие генераторы расширений для Chrome на базе ИИ: создавайте собственные надстройки для браузера без навыков программирования

Откройте для себя 20 лучших генераторов расширений для Chrome на базе ИИ на сайте XIX.AI. В нашем тщательно подобранном списке представлены самые популярные инструменты, которые обязательно стоит попробовать — они позволяют создавать собственные расширения для браузера без написания кода. Сравните бесплатные и платные варианты, ознакомьтесь с результатами реальных тестов и повысьте свою продуктивность. Изучите последние рейтинги и найдите идеальный инструмент уже сегодня!

10 инструментов
xix.ai
Преобразование текста в речь Лучший мультиязычный ТЗУ на основе ИИ: генерация автентичной речи с нативным акцентом более чем на 50 языках
Лучший мультиязычный ТЗУ на основе ИИ: генерация автентичной речи с нативным акцентом более чем на 50 языках

Откройте для себя лучшие инструменты искусственного интеллекта для мультиязычной технологии голосового текстового редактирования 2026 года, которые позволяют воспроизводить речь с натуральным акцентом на более чем 50 языках. Исследуйте нашу тщательно подготовленную классификацию, в которой представлены сравнения бесплатных и платных версий инструментов, а также результаты реальных тестов. Найдите идеальный инструмент для голосового текстового редактирования на сайте XIX.AI и раскройте для себя возможности глобальной коммуникации прямо сегодня.

10 инструментов
xix.ai
Помощник по встречам Лучшие инструменты автоматизации встреч на основе искусственного интеллекта для более эффективного и быстрого сотрудничества
Лучшие инструменты автоматизации встреч на основе искусственного интеллекта для более эффективного и быстрого сотрудничества

Откройте для себя самые новые и популярные инструменты автоматизации встреч на основе технологий ИИ 2026 года, которые помогут улучшить и ускорить сотрудничество. Наш отобранный список включает мощные решения, способные радикально изменить процесс работы с записями, резюме и планами действий. Сравните бесплатные и платные варианты на основе реальных тестов и еженедельно обновляемых рейтингов. Раскройте потенциал вашей команды! Ознакомьтесь с лучшими выборами прямо на сайте XIX.AI.

10 инструментов
xix.ai
Быстрый Подсказки ИИ для «инфраструктуры как кода»: безопасное развертывание конфигураций Terraform и Docker
Подсказки ИИ для «инфраструктуры как кода»: безопасное развертывание конфигураций Terraform и Docker

Откройте для себя лучшие AI-промпты 2026 года для «инфраструктуры как кода». Тщательно подобранная подборка от XIX.AI поможет вам безопасно развертывать конфигурации Terraform и Docker, автоматизировать настройку облачных сред и повысить эффективность DevOps. Сравните бесплатные и платные варианты на основе реальных тестов. Ознакомьтесь с ними прямо сейчас и раскройте весь потенциал искусственного интеллекта.

10 инструментов
xix.ai
Комментарии (24)
0/500
JoseAdams
JoseAdams 7 января 2026 г., 1:30:30 GMT+03:00

Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔

LarryEvans
LarryEvans 12 ноября 2025 г., 15:30:35 GMT+03:00

Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅

CarlGarcia
CarlGarcia 19 сентября 2025 г., 7:30:33 GMT+03:00

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez
KeithLopez 8 августа 2025 г., 20:01:00 GMT+03:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller
WilliamMiller 14 апреля 2025 г., 3:57:22 GMT+03:00

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen
StephenGreen 13 апреля 2025 г., 6:41:57 GMT+03:00

新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖

OR