Как мы построили новую семейство моделей робототехники Gemini

Дом

Новости

10 апреля 2025 г.

JimmyKing

136

# ai # Gemini

Как мы построили новую семейство моделей робототехники Gemini

Когда Google DeepMind готовился к своему последнему анонсу о новых моделях Gemini 2.0, разработанных для робототехники, Каролина Парада, руководитель направления робототехники, собрала свою команду, чтобы провести финальное тестирование технологии.

Они бросили вызов двухрукому роботу ALOHA — знаете, эти гибкие металлические руки с множеством суставов и клешнеобразными захватами, которые так любят использовать исследователи — справиться с задачами, с которыми он никогда раньше не сталкивался, и с объектами, которые он никогда не видел. «Мы подкинули ему всякое разное, например, поставили мой ботинок на стол и попросили засунуть несколько ручек внутрь», — вспоминает Каролина. «Робот на секунду задумался, чтобы понять суть, а затем выполнил задачу».

Затем они нашли игрушечные баскетбольные кольцо и мяч и предложили роботу сделать «слэм-данк». Каролина не могла сдержать гордости, когда робот идеально справился.

Каролина говорит, что наблюдать за слэм-данком было настоящим «вау» моментом.

«Мы уже давно обучаем модели помогать роботам с конкретными задачами и понимать естественный язык, но это? Это переломный момент», — объясняет Каролина. «У робота не было никакого опыта с баскетболом или этой конкретной игрушкой. Но он уловил сложную идею ‘сделать слэм-данк’ и выполнил её безупречно. С первой попытки.»

Этот универсальный робот работал на модели Gemini Robotics, входящей в новую партию мультимодальных моделей, разработанных для робототехники. Эти модели улучшают Gemini 2.0 за счёт тонкой настройки с данными, специфичными для роботов, интегрируя физические действия с обычными мультимодальными выходами Gemini, такими как текст, видео и аудио. «Этот рубеж открывает путь для следующей волны робототехники, которая сможет помогать в различных приложениях», — сказал генеральный директор Google Сундар Пичаи, представляя новые модели на X.

Модели Gemini Robotics невероятно универсальны, интерактивны и обобщающи, позволяя роботам реагировать на новые объекты, обстановку и инструкции без необходимости дополнительного обучения. Это большое достижение, учитывая цели команды.

«Наша цель — создать воплощённый ИИ, который позволит роботам помогать с повседневными задачами в реальном мире», — говорит Каролина, чья любовь к робототехнике зародилась благодаря научно-фантастическим мультфильмам в детстве и мечтам об автоматизированных домашних делах. «В будущем роботы станут ещё одним способом взаимодействия с ИИ, как наши телефоны или компьютеры — физическими агентами в нашем мире».

Чтобы роботы хорошо и безопасно выполняли свои задачи, им нужны две ключевые способности: понимание и принятие решений, а также способность действовать. Gemini Robotics-ER, модель «воплощённого рассуждения», построенная на базе Gemini 2.0 Flash, фокусируется на первом. Она может распознавать элементы в окружающей среде, оценивать их размер и положение, а также предсказывать траекторию и захват, необходимые для их перемещения. Затем она генерирует код для выполнения действия. Мы сейчас внедряем эту модель для доверенных тестировщиков и партнёров.

Google DeepMind также внедряет Gemini Robotics, свою топовую модель взаимодействия зрения, языка и действий, которая позволяет роботам анализировать сцену, взаимодействовать с пользователями и действовать. Она сделала огромные успехи в области, которая долгое время была проблемой для робототехников: ловкость. «То, что для нас, людей, кажется естественным, для роботов сложно», — отмечает Каролина. «Ловкость требует как пространственного мышления, так и сложной физической манипуляции. В тестах Gemini Robotics установила новый стандарт ловкости, справляясь со сложными многоэтапными задачами с плавными движениями и впечатляющим временем выполнения».

Gemini Robotics-ER отлично справляется с воплощённым рассуждением, успешно выполняя такие задачи, как обнаружение объектов, указание на части объектов, поиск соответствующих точек и 3D-обнаружение объектов.

С Gemini Robotics во главе машины готовили салаты, собирали обеды для детей, играли в игры, такие как крестики-нолики, и даже создавали оригами-лису.

Подготовка моделей к выполнению широкого спектра задач была непростой задачей — в основном потому, что это идёт вразрез с тенденцией обучать модели для одной конкретной задачи до совершенства. «Мы выбрали обучение широкому спектру задач, обучая модели на множестве заданий», — говорит Каролина. «Мы предположили, что через некоторое время они начнут обобщать, и мы оказались правы».

Обе модели могут адаптироваться к различным воплощениям, от роботов, ориентированных на исследования, таких как двухрукий ALOHA, до гуманоидных роботов, таких как Apollo, разработанный нашим партнёром Apptronik.

Эти модели могут адаптироваться к различным формам, выполняя такие задачи, как сборка ланч-бокса или протирание белой доски в разных телах роботов.

Эта адаптивность имеет решающее значение для будущего, где роботы могут выполнять множество ролей.

«Потенциал роботов, использующих эти высокообобщённые и способные модели, огромен и захватывающий», — говорит Каролина. «Они могут быть чрезвычайно полезны в отраслях, где задачи сложны, важна точность, а пространства не предназначены для людей. И они могут облегчить жизнь в пространствах, ориентированных на человека, таких как наши дома. Это ещё далеко, но эти модели продвигают нас вперёд».

Похоже, помощь с домашними делами уже не за горами — со временем.

Связанная статья

Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу

Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел

YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв

Рекомендации по связанным специальным темам

Бизнес

Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов

xix.ai

Производительность

Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов

xix.ai

Образование и обучение

Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов

xix.ai

код

Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов

xix.ai

Комментарии (24)

0/500

Пожалуйста, войдите в систему

JoseAdams

7 января 2026 г., 1:30:30 GMT+03:00

Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔

LarryEvans

12 ноября 2025 г., 15:30:35 GMT+03:00

Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅

CarlGarcia

19 сентября 2025 г., 7:30:33 GMT+03:00

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez

8 августа 2025 г., 20:01:00 GMT+03:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller

14 апреля 2025 г., 3:57:22 GMT+03:00

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen

13 апреля 2025 г., 6:41:57 GMT+03:00

新しいジェミニロボティクスモデルは驚異的です！ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール！🤖

Лучшие новости

AI Builder и Power Automate Революционизируют Суммирование Документов AI Hosts of Notebooklm подкаста теперь доступны для интервью Китай представляет национальный гуманоидный робот и стандарты воплощенного интеллекта По данным Ramp, корпоративное внедрение ИИ находится на плаву Руководство по создателю изображений Bing: Гайд по генерации искусством ИИ Научитесь создавать музыку ИИ, используя свой голос: пошаговый учебник SUNO iMyFone MagicMic: Обзор и руководство по реальном времени AI изменению голоса Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами DeepSeek V4 становится мультимодальным искусственным интеллектом, меняющим правила игры Компания Embodied Intelligence представляет первый отраслевой стандарт, призванный сдержать неконтролируемый рост

Более

Показан