Hogar
El nuevo modelo de IA de DeepMind se ejecuta de forma nativa en robots para un rendimiento más rápido
Google DeepMind lanza una versión para dispositivos de su modelo de inteligencia artificial Gemini Robotics que funciona sin necesidad de conexión a Internet. Este modelo de visión-lenguaje-acción (VLA) incluye las mismas capacidades de destreza presentadas en marzo, pero Google señala que ahora es lo suficientemente compacto y eficiente como para ejecutarse directamente en un robot.
El modelo estrella de Gemini Robotics permite a los robots realizar diversas tareas físicas, incluso aquellas para las que no han sido entrenados específicamente. Permite generalizar nuevos escenarios, comprender instrucciones y reaccionar ante ellas, y llevar a cabo actividades que implican un control motor fino.
Según Carolina Parada, responsable de robótica de Google DeepMind, el modelo original de Gemini Robotics utiliza un método híbrido que funciona tanto en el dispositivo como en la nube. Sin embargo, con este nuevo modelo sólo para dispositivos, los usuarios pueden acceder a capacidades offline que ofrecen casi el mismo rendimiento que la versión insignia.

El robot humanoide Apollo de Apptronik seguido del sistema ALOHA de Google. GIF: GoogleEl modelo en el dispositivo puede realizar múltiples tareas de forma inmediata y adaptarse a situaciones desconocidas "con tan solo 50 o 100 demostraciones", explica Parada. Aunque Google entrenó inicialmente el modelo sólo en su robot ALOHA, la empresa lo adaptó con éxito a otras plataformas robóticas, como el robot humanoide Apollo de Apptronik y el robot de doble brazo Franka FR3.
"El modelo híbrido de Gemini Robotics sigue siendo más potente, pero nos ha impresionado realmente el rendimiento de esta versión para dispositivos", añade Parada. "Puede considerarse un modelo básico o una solución ideal para entornos con Internet poco fiable". También es adecuado para organizaciones con protocolos de seguridad estrictos.
Además del nuevo modelo, Google pone a disposición de los desarrolladores un kit de desarrollo de software (SDK) para que puedan probarlo y personalizarlo: es la primera vez que se publica un kit de herramientas de este tipo para uno de los VLA de Google DeepMind.
El modelo Gemini Robotics en el dispositivo y el SDK que lo acompaña se proporcionarán inicialmente a un grupo selecto de probadores de confianza mientras Google sigue abordando y minimizando los posibles problemas de seguridad.
Artículo relacionado
Google lanza Gemini en Chrome en la India
El miércoles, Google anunció que ampliará la integración de Gemini en Chrome a nuevas regiones, entre las que se incluyen la India, Canadá y Nueva Zelanda. Esta actualización permite a los usuarios de
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
YouTube amplía la detección de deepfakes mediante IA a políticos, funcionarios públicos y periodistas
El martes, YouTube anunció que va a ampliar su tecnología de detección de deepfakes a un grupo selecto de funcionarios públicos, candidatos políticos y periodistas. La herramienta identifica las imáge
Recomendaciones de temas especiales relacionados
comentario (1)
0/500
That's a huge step forward for robotics! On-device processing is finally catching up, but I'm kinda wondering how expensive the hardware will be - can small startups afford it? 🤔 Also, curious if offline functionality means it's less likely to be updated or influenced remotely, which might be a double-edged sword.
Google DeepMind lanza una versión para dispositivos de su modelo de inteligencia artificial Gemini Robotics que funciona sin necesidad de conexión a Internet. Este modelo de visión-lenguaje-acción (VLA) incluye las mismas capacidades de destreza presentadas en marzo, pero Google señala que ahora es lo suficientemente compacto y eficiente como para ejecutarse directamente en un robot.
El modelo estrella de Gemini Robotics permite a los robots realizar diversas tareas físicas, incluso aquellas para las que no han sido entrenados específicamente. Permite generalizar nuevos escenarios, comprender instrucciones y reaccionar ante ellas, y llevar a cabo actividades que implican un control motor fino.
Según Carolina Parada, responsable de robótica de Google DeepMind, el modelo original de Gemini Robotics utiliza un método híbrido que funciona tanto en el dispositivo como en la nube. Sin embargo, con este nuevo modelo sólo para dispositivos, los usuarios pueden acceder a capacidades offline que ofrecen casi el mismo rendimiento que la versión insignia.

El modelo en el dispositivo puede realizar múltiples tareas de forma inmediata y adaptarse a situaciones desconocidas "con tan solo 50 o 100 demostraciones", explica Parada. Aunque Google entrenó inicialmente el modelo sólo en su robot ALOHA, la empresa lo adaptó con éxito a otras plataformas robóticas, como el robot humanoide Apollo de Apptronik y el robot de doble brazo Franka FR3.
"El modelo híbrido de Gemini Robotics sigue siendo más potente, pero nos ha impresionado realmente el rendimiento de esta versión para dispositivos", añade Parada. "Puede considerarse un modelo básico o una solución ideal para entornos con Internet poco fiable". También es adecuado para organizaciones con protocolos de seguridad estrictos.
Además del nuevo modelo, Google pone a disposición de los desarrolladores un kit de desarrollo de software (SDK) para que puedan probarlo y personalizarlo: es la primera vez que se publica un kit de herramientas de este tipo para uno de los VLA de Google DeepMind.
El modelo Gemini Robotics en el dispositivo y el SDK que lo acompaña se proporcionarán inicialmente a un grupo selecto de probadores de confianza mientras Google sigue abordando y minimizando los posibles problemas de seguridad.
Google lanza Gemini en Chrome en la India
El miércoles, Google anunció que ampliará la integración de Gemini en Chrome a nuevas regiones, entre las que se incluyen la India, Canadá y Nueva Zelanda. Esta actualización permite a los usuarios de
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
YouTube amplía la detección de deepfakes mediante IA a políticos, funcionarios públicos y periodistas
El martes, YouTube anunció que va a ampliar su tecnología de detección de deepfakes a un grupo selecto de funcionarios públicos, candidatos políticos y periodistas. La herramienta identifica las imáge
That's a huge step forward for robotics! On-device processing is finally catching up, but I'm kinda wondering how expensive the hardware will be - can small startups afford it? 🤔 Also, curious if offline functionality means it's less likely to be updated or influenced remotely, which might be a double-edged sword.











