opción
Hogar
Noticias
Cómo construimos la nueva familia de modelos de robótica de Géminis

Cómo construimos la nueva familia de modelos de robótica de Géminis

10 de abril de 2025
84

Cómo construimos la nueva familia de modelos de robótica de Géminis

Mientras Google DeepMind se preparaba para su último anuncio sobre los nuevos modelos Gemini 2.0 diseñados para robótica, Carolina Parada, jefa de robótica, reunió a su equipo para una última revisión de la tecnología.

Desafiaron a un robot ALOHA de doble brazo —ya sabes, esos brazos metálicos flexibles con múltiples articulaciones y manos tipo pinza que los investigadores adoran usar— para realizar tareas nuevas con objetos desconocidos. "Le lanzamos cosas al azar, como poner mi zapato en la mesa y pedirle que guardara algunos bolígrafos dentro," recuerda Carolina. "El robot se detuvo un segundo para entenderlo y luego lo hizo."

Luego, encontraron un aro y una pelota de baloncesto de juguete y retaron al robot a hacer un "mate." Carolina no pudo evitar sonreír con orgullo cuando lo logró.

Carolina dice que ver el mate fue un momento realmente "increíble".

"Hemos estado entrenando modelos para ayudar a los robots con tareas específicas y entender el lenguaje natural durante un tiempo, pero ¿esto? Esto cambió las reglas del juego," explica Carolina. "El robot no tenía experiencia con baloncesto ni con este juguete en particular. Sin embargo, comprendió la idea compleja de 'hacer un mate con la pelota' y lo ejecutó sin problemas. En el primer intento."

Este robot versátil fue impulsado por un modelo Gemini Robotics, parte de un nuevo conjunto de modelos multimodales diseñados para robótica. Estos modelos mejoran Gemini 2.0 al ajustarse con datos específicos para robots, integrando acciones físicas con las salidas multimodales habituales de Gemini, como texto, video y audio. "Este hito establece el escenario para la próxima ola de robótica que puede asistir en diversas aplicaciones," dijo el CEO de Google, Sundar Pichai, al presentar los nuevos modelos en X.

Los modelos Gemini Robotics son increíblemente versátiles, interactivos y generales, permitiendo a los robots responder a nuevos objetos, entornos e instrucciones sin necesidad de más entrenamiento. Es un gran avance, considerando los objetivos del equipo.

"Nuestro objetivo es crear una IA encarnada que potencie a los robots para ayudar con tareas cotidianas en el mundo real," dice Carolina, cuya pasión por la robótica se encendió con caricaturas de ciencia ficción de niña y sueños de tareas automatizadas. "A largo plazo, los robots serán solo otra forma en que interactuamos con la IA, como nuestros teléfonos o computadoras: agentes físicos en nuestro mundo."

Para que los robots hagan su trabajo bien y de forma segura, necesitan dos habilidades clave: comprensión y toma de decisiones, y la capacidad de actuar. Gemini Robotics-ER, un modelo de "razonamiento encarnado" basado en Gemini 2.0 Flash, se centra en lo primero. Puede identificar elementos en su entorno, evaluar su tamaño y posición, y predecir la trayectoria y el agarre necesarios para moverlos. Luego, genera código para ejecutar la acción. Ahora estamos implementando este modelo para probadores y socios confiables.

Google DeepMind también está lanzando Gemini Robotics, su modelo de visión-lenguaje-acción de primer nivel, que permite a los robots analizar una escena, interactuar con usuarios y actuar. Ha logrado grandes avances en un área que ha sido un dolor de cabeza para los roboticistas: la destreza. "Lo que es natural para los humanos es difícil para los robots," señala Carolina. "La destreza implica tanto razonamiento espacial como manipulación física intrincada. En pruebas, Gemini Robotics estableció un nuevo estándar de destreza, manejando tareas complejas de múltiples pasos con movimientos fluidos y tiempos de finalización impresionantes."

Gemini Robotics-ER destaca en razonamiento encarnado, dominando tareas como detección de objetos, señalar partes de objetos, encontrar puntos coincidentes y detección de objetos en 3D.

Con Gemini Robotics al mando, las máquinas han preparado ensaladas, empacado almuerzos para niños, jugado juegos como Tres en Raya e incluso creado un zorro de origami.

Preparar modelos para manejar una amplia gama de tareas no fue fácil, principalmente porque va contra la tendencia de entrenar modelos para una tarea específica hasta perfeccionarla. "Optamos por un aprendizaje de tareas amplio, entrenando modelos en muchas tareas," dice Carolina. "Supusimos que después de un tiempo, comenzarían a generalizar, y acertamos."

Ambos modelos pueden adaptarse a diversas encarnaciones, desde robots enfocados en investigación como el ALOHA de doble brazo hasta robots humanoides como Apollo, desarrollado por nuestro socio Apptronik.

Estos modelos pueden adaptarse a diferentes formas, realizando tareas como empacar una lonchera o limpiar un pizarrón en varios cuerpos de robots.

Esta adaptabilidad es crucial para un futuro donde los robots podrían asumir diversos roles.

"El potencial de los robots que usan estos modelos altamente generales y capaces es vasto y emocionante," dice Carolina. "Podrían ser muy útiles en industrias donde las cosas son complejas, la precisión importa y los espacios no están diseñados para humanos. Y podrían facilitar la vida en espacios centrados en humanos, como nuestros hogares. Eso aún está lejos, pero estos modelos nos están impulsando hacia adelante."

Parece que la ayuda con esas tareas domésticas podría estar en el horizonte —eventualmente.

Artículo relacionado
Google relanza Google relanza "Ask Photos" con IA y funciones de velocidad mejoradas Tras una interrupción temporal de las pruebas, Google relanza su función de búsqueda "Ask Photos" basada en IA en Google Fotos con importantes mejoras. Gracias a la tecnología Gemini AI de Google, est
Microsoft aloja los avanzados modelos Grok 3 de xAI en una nueva colaboración de IA Microsoft aloja los avanzados modelos Grok 3 de xAI en una nueva colaboración de IA A principios de este mes, mi investigación periodística en *Notepad* desveló los planes de Microsoft para integrar los modelos Grok AI de Elon Musk, revelaciones que ahora se han confirmado oficialmen
Apple se alía con Anthropic para desarrollar una herramienta de codificación de IA para Xcode Apple se alía con Anthropic para desarrollar una herramienta de codificación de IA para Xcode Apple y Anthropic colaboran en un asistente de programación basado en IASegún Bloomberg, Apple está desarrollando un avanzado asistente de codificación con IA que se integrará directamente en Xcode,
comentario (22)
0/200
CarlGarcia
CarlGarcia 19 de septiembre de 2025 06:30:33 GMT+02:00

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez
KeithLopez 8 de agosto de 2025 19:01:00 GMT+02:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller
WilliamMiller 14 de abril de 2025 02:57:22 GMT+02:00

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen
StephenGreen 13 de abril de 2025 05:41:57 GMT+02:00

新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖

BenHernández
BenHernández 13 de abril de 2025 00:11:04 GMT+02:00

新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!

JonathanAllen
JonathanAllen 12 de abril de 2025 14:44:44 GMT+02:00

Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!

Volver arriba
OR