opción
Hogar
Noticias
Cómo construimos la nueva familia de modelos de robótica de Géminis

Cómo construimos la nueva familia de modelos de robótica de Géminis

10 de abril de 2025
83

Cómo construimos la nueva familia de modelos de robótica de Géminis

Mientras Google DeepMind se preparaba para su último anuncio sobre los nuevos modelos Gemini 2.0 diseñados para robótica, Carolina Parada, jefa de robótica, reunió a su equipo para una última revisión de la tecnología.

Desafiaron a un robot ALOHA de doble brazo —ya sabes, esos brazos metálicos flexibles con múltiples articulaciones y manos tipo pinza que los investigadores adoran usar— para realizar tareas nuevas con objetos desconocidos. "Le lanzamos cosas al azar, como poner mi zapato en la mesa y pedirle que guardara algunos bolígrafos dentro," recuerda Carolina. "El robot se detuvo un segundo para entenderlo y luego lo hizo."

Luego, encontraron un aro y una pelota de baloncesto de juguete y retaron al robot a hacer un "mate." Carolina no pudo evitar sonreír con orgullo cuando lo logró.

Carolina dice que ver el mate fue un momento realmente "increíble".

"Hemos estado entrenando modelos para ayudar a los robots con tareas específicas y entender el lenguaje natural durante un tiempo, pero ¿esto? Esto cambió las reglas del juego," explica Carolina. "El robot no tenía experiencia con baloncesto ni con este juguete en particular. Sin embargo, comprendió la idea compleja de 'hacer un mate con la pelota' y lo ejecutó sin problemas. En el primer intento."

Este robot versátil fue impulsado por un modelo Gemini Robotics, parte de un nuevo conjunto de modelos multimodales diseñados para robótica. Estos modelos mejoran Gemini 2.0 al ajustarse con datos específicos para robots, integrando acciones físicas con las salidas multimodales habituales de Gemini, como texto, video y audio. "Este hito establece el escenario para la próxima ola de robótica que puede asistir en diversas aplicaciones," dijo el CEO de Google, Sundar Pichai, al presentar los nuevos modelos en X.

Los modelos Gemini Robotics son increíblemente versátiles, interactivos y generales, permitiendo a los robots responder a nuevos objetos, entornos e instrucciones sin necesidad de más entrenamiento. Es un gran avance, considerando los objetivos del equipo.

"Nuestro objetivo es crear una IA encarnada que potencie a los robots para ayudar con tareas cotidianas en el mundo real," dice Carolina, cuya pasión por la robótica se encendió con caricaturas de ciencia ficción de niña y sueños de tareas automatizadas. "A largo plazo, los robots serán solo otra forma en que interactuamos con la IA, como nuestros teléfonos o computadoras: agentes físicos en nuestro mundo."

Para que los robots hagan su trabajo bien y de forma segura, necesitan dos habilidades clave: comprensión y toma de decisiones, y la capacidad de actuar. Gemini Robotics-ER, un modelo de "razonamiento encarnado" basado en Gemini 2.0 Flash, se centra en lo primero. Puede identificar elementos en su entorno, evaluar su tamaño y posición, y predecir la trayectoria y el agarre necesarios para moverlos. Luego, genera código para ejecutar la acción. Ahora estamos implementando este modelo para probadores y socios confiables.

Google DeepMind también está lanzando Gemini Robotics, su modelo de visión-lenguaje-acción de primer nivel, que permite a los robots analizar una escena, interactuar con usuarios y actuar. Ha logrado grandes avances en un área que ha sido un dolor de cabeza para los roboticistas: la destreza. "Lo que es natural para los humanos es difícil para los robots," señala Carolina. "La destreza implica tanto razonamiento espacial como manipulación física intrincada. En pruebas, Gemini Robotics estableció un nuevo estándar de destreza, manejando tareas complejas de múltiples pasos con movimientos fluidos y tiempos de finalización impresionantes."

Gemini Robotics-ER destaca en razonamiento encarnado, dominando tareas como detección de objetos, señalar partes de objetos, encontrar puntos coincidentes y detección de objetos en 3D.

Con Gemini Robotics al mando, las máquinas han preparado ensaladas, empacado almuerzos para niños, jugado juegos como Tres en Raya e incluso creado un zorro de origami.

Preparar modelos para manejar una amplia gama de tareas no fue fácil, principalmente porque va contra la tendencia de entrenar modelos para una tarea específica hasta perfeccionarla. "Optamos por un aprendizaje de tareas amplio, entrenando modelos en muchas tareas," dice Carolina. "Supusimos que después de un tiempo, comenzarían a generalizar, y acertamos."

Ambos modelos pueden adaptarse a diversas encarnaciones, desde robots enfocados en investigación como el ALOHA de doble brazo hasta robots humanoides como Apollo, desarrollado por nuestro socio Apptronik.

Estos modelos pueden adaptarse a diferentes formas, realizando tareas como empacar una lonchera o limpiar un pizarrón en varios cuerpos de robots.

Esta adaptabilidad es crucial para un futuro donde los robots podrían asumir diversos roles.

"El potencial de los robots que usan estos modelos altamente generales y capaces es vasto y emocionante," dice Carolina. "Podrían ser muy útiles en industrias donde las cosas son complejas, la precisión importa y los espacios no están diseñados para humanos. Y podrían facilitar la vida en espacios centrados en humanos, como nuestros hogares. Eso aún está lejos, pero estos modelos nos están impulsando hacia adelante."

Parece que la ayuda con esas tareas domésticas podría estar en el horizonte —eventualmente.

Artículo relacionado
Desbloqueando el Crecimiento de la IA a través de Inversiones en Infraestructura Energética y Fuerza Laboral Desbloqueando el Crecimiento de la IA a través de Inversiones en Infraestructura Energética y Fuerza Laboral La IA ofrece a los Estados Unidos una oportunidad transformadora para impulsar la innovación y el crecimiento económico. Su adopción estimulará la economía, creará empleos y acelerará el progreso cien
Adobe y Figma Integran el Modelo Avanzado de Generación de Imágenes de OpenAI Adobe y Figma Integran el Modelo Avanzado de Generación de Imágenes de OpenAI La generación de imágenes mejorada de OpenAI en ChatGPT ha impulsado un aumento en los usuarios, impulsado por su capacidad para producir visuales al estilo Studio Ghibli y diseños únicos, y ahora se
Gigantes Tecnológicos Divididos sobre el Código de IA de la UE a Medida que se Acerca la Fecha Límite de Cumplimiento Gigantes Tecnológicos Divididos sobre el Código de IA de la UE a Medida que se Acerca la Fecha Límite de Cumplimiento El Código de Prácticas de Propósito General de IA de la UE ha revelado marcadas diferencias entre las principales empresas tecnológicas. Microsoft ha expresado su intención de adoptar el marco volunta
comentario (21)
0/200
KeithLopez
KeithLopez 8 de agosto de 2025 19:01:00 GMT+02:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller
WilliamMiller 14 de abril de 2025 02:57:22 GMT+02:00

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen
StephenGreen 13 de abril de 2025 05:41:57 GMT+02:00

新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖

BenHernández
BenHernández 13 de abril de 2025 00:11:04 GMT+02:00

新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!

JonathanAllen
JonathanAllen 12 de abril de 2025 14:44:44 GMT+02:00

Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!

DonaldSanchez
DonaldSanchez 12 de abril de 2025 04:55:17 GMT+02:00

제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!

Volver arriba
OR