Lar
O novo modelo de IA da DeepMind é executado nativamente em robôs para um desempenho mais rápido
O Google DeepMind está lançando uma versão no dispositivo de seu modelo de IA Gemini Robotics que funciona sem a necessidade de uma conexão com a Internet. Esse modelo de visão, linguagem e ação (VLA) inclui os mesmos recursos de destreza apresentados em março, mas o Google observa que agora ele é compacto e eficiente o suficiente para ser executado diretamente em um robô.
O principal modelo da Gemini Robotics permite que os robôs executem diversas tarefas físicas, mesmo aquelas para as quais não foram especificamente treinados. Ele suporta a generalização de novos cenários, a compreensão e a reação a instruções e a realização de atividades que envolvem controle motor fino.
De acordo com Carolina Parada, chefe de robótica do Google DeepMind, o modelo original da Gemini Robotics usa um método híbrido que funciona tanto no dispositivo quanto na nuvem. No entanto, com esse novo modelo somente para dispositivos, os usuários podem acessar recursos off-line que oferecem praticamente o mesmo desempenho da versão principal.

O bot humanoide Apollo da Apptronik seguido pelo sistema ALOHA do Google. GIF: GoogleO modelo no dispositivo pode lidar com várias tarefas imediatamente e se adaptar a situações desconhecidas "com apenas 50 a 100 demonstrações", explica Parada. Embora o Google tenha inicialmente treinado o modelo apenas em seu robô ALOHA, a empresa o adaptou com sucesso a outras plataformas robóticas, como o robô humanoide Apollo da Apptronik e o robô Franka FR3 de braço duplo.
"O modelo híbrido da Gemini Robotics continua sendo mais potente, mas ficamos realmente impressionados com o desempenho dessa versão no dispositivo", acrescenta Parada. "Ele pode ser visto como um modelo de nível básico ou uma solução ideal para ambientes com internet não confiável." Ele também é adequado para organizações com protocolos de segurança rígidos.
Além do novo modelo, o Google está disponibilizando um kit de desenvolvimento de software (SDK) para que os desenvolvedores possam testá-lo e personalizá-lo - é a primeira vez que esse kit de ferramentas é lançado para um dos VLAs do Google DeepMind.
O modelo da Gemini Robotics no dispositivo e o SDK que o acompanha serão fornecidos inicialmente a um grupo seleto de testadores confiáveis, enquanto o Google continua a abordar e minimizar possíveis problemas de segurança.
Artigo relacionado
O Google lança o Gemini no Chrome na Índia
Na quarta-feira, o Google anunciou que está expandindo a integração do Gemini com o Chrome para novas regiões, incluindo Índia, Canadá e Nova Zelândia. Essa implementação permite que os usuários de co
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas
Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden
Recomendações de tópicos especiais relacionados
Comentários (1)
That's a huge step forward for robotics! On-device processing is finally catching up, but I'm kinda wondering how expensive the hardware will be - can small startups afford it? 🤔 Also, curious if offline functionality means it's less likely to be updated or influenced remotely, which might be a double-edged sword.
O Google DeepMind está lançando uma versão no dispositivo de seu modelo de IA Gemini Robotics que funciona sem a necessidade de uma conexão com a Internet. Esse modelo de visão, linguagem e ação (VLA) inclui os mesmos recursos de destreza apresentados em março, mas o Google observa que agora ele é compacto e eficiente o suficiente para ser executado diretamente em um robô.
O principal modelo da Gemini Robotics permite que os robôs executem diversas tarefas físicas, mesmo aquelas para as quais não foram especificamente treinados. Ele suporta a generalização de novos cenários, a compreensão e a reação a instruções e a realização de atividades que envolvem controle motor fino.
De acordo com Carolina Parada, chefe de robótica do Google DeepMind, o modelo original da Gemini Robotics usa um método híbrido que funciona tanto no dispositivo quanto na nuvem. No entanto, com esse novo modelo somente para dispositivos, os usuários podem acessar recursos off-line que oferecem praticamente o mesmo desempenho da versão principal.

O modelo no dispositivo pode lidar com várias tarefas imediatamente e se adaptar a situações desconhecidas "com apenas 50 a 100 demonstrações", explica Parada. Embora o Google tenha inicialmente treinado o modelo apenas em seu robô ALOHA, a empresa o adaptou com sucesso a outras plataformas robóticas, como o robô humanoide Apollo da Apptronik e o robô Franka FR3 de braço duplo.
"O modelo híbrido da Gemini Robotics continua sendo mais potente, mas ficamos realmente impressionados com o desempenho dessa versão no dispositivo", acrescenta Parada. "Ele pode ser visto como um modelo de nível básico ou uma solução ideal para ambientes com internet não confiável." Ele também é adequado para organizações com protocolos de segurança rígidos.
Além do novo modelo, o Google está disponibilizando um kit de desenvolvimento de software (SDK) para que os desenvolvedores possam testá-lo e personalizá-lo - é a primeira vez que esse kit de ferramentas é lançado para um dos VLAs do Google DeepMind.
O modelo da Gemini Robotics no dispositivo e o SDK que o acompanha serão fornecidos inicialmente a um grupo seleto de testadores confiáveis, enquanto o Google continua a abordar e minimizar possíveis problemas de segurança.
O Google lança o Gemini no Chrome na Índia
Na quarta-feira, o Google anunciou que está expandindo a integração do Gemini com o Chrome para novas regiões, incluindo Índia, Canadá e Nova Zelândia. Essa implementação permite que os usuários de co
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas
Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden
That's a huge step forward for robotics! On-device processing is finally catching up, but I'm kinda wondering how expensive the hardware will be - can small startups afford it? 🤔 Also, curious if offline functionality means it's less likely to be updated or influenced remotely, which might be a double-edged sword.











