Cómo construimos la nueva familia de modelos de robótica de Géminis

Hogar

Noticias

10 de abril de 2025

JimmyKing

136

# ai # Gemini

Cómo construimos la nueva familia de modelos de robótica de Géminis

Mientras Google DeepMind se preparaba para su último anuncio sobre los nuevos modelos Gemini 2.0 diseñados para robótica, Carolina Parada, jefa de robótica, reunió a su equipo para una última revisión de la tecnología.

Desafiaron a un robot ALOHA de doble brazo —ya sabes, esos brazos metálicos flexibles con múltiples articulaciones y manos tipo pinza que los investigadores adoran usar— para realizar tareas nuevas con objetos desconocidos. "Le lanzamos cosas al azar, como poner mi zapato en la mesa y pedirle que guardara algunos bolígrafos dentro," recuerda Carolina. "El robot se detuvo un segundo para entenderlo y luego lo hizo."

Luego, encontraron un aro y una pelota de baloncesto de juguete y retaron al robot a hacer un "mate." Carolina no pudo evitar sonreír con orgullo cuando lo logró.

Carolina dice que ver el mate fue un momento realmente "increíble".

"Hemos estado entrenando modelos para ayudar a los robots con tareas específicas y entender el lenguaje natural durante un tiempo, pero ¿esto? Esto cambió las reglas del juego," explica Carolina. "El robot no tenía experiencia con baloncesto ni con este juguete en particular. Sin embargo, comprendió la idea compleja de 'hacer un mate con la pelota' y lo ejecutó sin problemas. En el primer intento."

Este robot versátil fue impulsado por un modelo Gemini Robotics, parte de un nuevo conjunto de modelos multimodales diseñados para robótica. Estos modelos mejoran Gemini 2.0 al ajustarse con datos específicos para robots, integrando acciones físicas con las salidas multimodales habituales de Gemini, como texto, video y audio. "Este hito establece el escenario para la próxima ola de robótica que puede asistir en diversas aplicaciones," dijo el CEO de Google, Sundar Pichai, al presentar los nuevos modelos en X.

Los modelos Gemini Robotics son increíblemente versátiles, interactivos y generales, permitiendo a los robots responder a nuevos objetos, entornos e instrucciones sin necesidad de más entrenamiento. Es un gran avance, considerando los objetivos del equipo.

"Nuestro objetivo es crear una IA encarnada que potencie a los robots para ayudar con tareas cotidianas en el mundo real," dice Carolina, cuya pasión por la robótica se encendió con caricaturas de ciencia ficción de niña y sueños de tareas automatizadas. "A largo plazo, los robots serán solo otra forma en que interactuamos con la IA, como nuestros teléfonos o computadoras: agentes físicos en nuestro mundo."

Para que los robots hagan su trabajo bien y de forma segura, necesitan dos habilidades clave: comprensión y toma de decisiones, y la capacidad de actuar. Gemini Robotics-ER, un modelo de "razonamiento encarnado" basado en Gemini 2.0 Flash, se centra en lo primero. Puede identificar elementos en su entorno, evaluar su tamaño y posición, y predecir la trayectoria y el agarre necesarios para moverlos. Luego, genera código para ejecutar la acción. Ahora estamos implementando este modelo para probadores y socios confiables.

Google DeepMind también está lanzando Gemini Robotics, su modelo de visión-lenguaje-acción de primer nivel, que permite a los robots analizar una escena, interactuar con usuarios y actuar. Ha logrado grandes avances en un área que ha sido un dolor de cabeza para los roboticistas: la destreza. "Lo que es natural para los humanos es difícil para los robots," señala Carolina. "La destreza implica tanto razonamiento espacial como manipulación física intrincada. En pruebas, Gemini Robotics estableció un nuevo estándar de destreza, manejando tareas complejas de múltiples pasos con movimientos fluidos y tiempos de finalización impresionantes."

Gemini Robotics-ER destaca en razonamiento encarnado, dominando tareas como detección de objetos, señalar partes de objetos, encontrar puntos coincidentes y detección de objetos en 3D.

Con Gemini Robotics al mando, las máquinas han preparado ensaladas, empacado almuerzos para niños, jugado juegos como Tres en Raya e incluso creado un zorro de origami.

Preparar modelos para manejar una amplia gama de tareas no fue fácil, principalmente porque va contra la tendencia de entrenar modelos para una tarea específica hasta perfeccionarla. "Optamos por un aprendizaje de tareas amplio, entrenando modelos en muchas tareas," dice Carolina. "Supusimos que después de un tiempo, comenzarían a generalizar, y acertamos."

Ambos modelos pueden adaptarse a diversas encarnaciones, desde robots enfocados en investigación como el ALOHA de doble brazo hasta robots humanoides como Apollo, desarrollado por nuestro socio Apptronik.

Estos modelos pueden adaptarse a diferentes formas, realizando tareas como empacar una lonchera o limpiar un pizarrón en varios cuerpos de robots.

Esta adaptabilidad es crucial para un futuro donde los robots podrían asumir diversos roles.

"El potencial de los robots que usan estos modelos altamente generales y capaces es vasto y emocionante," dice Carolina. "Podrían ser muy útiles en industrias donde las cosas son complejas, la precisión importa y los espacios no están diseñados para humanos. Y podrían facilitar la vida en espacios centrados en humanos, como nuestros hogares. Eso aún está lejos, pero estos modelos nos están impulsando hacia adelante."

Parece que la ayuda con esas tareas domésticas podría estar en el horizonte —eventualmente.

Artículo relacionado

Kakao Mobility presenta su hoja de ruta para la conducción autónoma de nivel 4 basada en la IA física Kakao Mobility tiene previsto desarrollar internamente tecnologías de conducción autónoma de nivel 4 como parte de su estrategia de IA física.En la conferencia World IT Show 2026, celebrada en el COE

Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere

YouTube amplía la detección de deepfakes mediante IA a políticos, funcionarios públicos y periodistas El martes, YouTube anunció que va a ampliar su tecnología de detección de deepfakes a un grupo selecto de funcionarios públicos, candidatos políticos y periodistas. La herramienta identifica las imáge

Recomendaciones de temas especiales relacionados

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas

xix.ai

chatbot

Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas

xix.ai

código

Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic

Descubre las mejores herramientas de IA de 2026 para la automatización de pruebas unitarias. Nuestra selección incluye potentes soluciones revolucionarias que permiten generar casos de prueba para Jest, PyTest y JUnit al instante. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones actualizadas semanalmente en XIX.AI. Aprovecha las ventajas de la IA y aumenta la productividad de tu desarrollo hoy mismo.

10 herramientas

xix.ai

comentario (24)

0/500

Inicie sesión primero

JoseAdams

6 de enero de 2026 23:30:30 GMT+01:00

Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔

LarryEvans

12 de noviembre de 2025 13:30:35 GMT+01:00

Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅

CarlGarcia

19 de septiembre de 2025 06:30:33 GMT+02:00

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez

8 de agosto de 2025 19:01:00 GMT+02:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller

14 de abril de 2025 02:57:22 GMT+02:00

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen

13 de abril de 2025 05:41:57 GMT+02:00

新しいジェミニロボティクスモデルは驚異的です！ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール！🤖

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Guía de creación de arte con el creador de imágenes de Bing Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como un revolucionario sistema de IA multimodal Embodied Intelligence presenta la primera norma del sector para frenar el crecimiento descontrolado

Más

Presentado