Como construímos a nova família de modelos de robótica Gemini

Enquanto o Google DeepMind se preparava para seu mais recente anúncio sobre os novos modelos Gemini 2.0 adaptados para robótica, Carolina Parada, chefe de robótica, reuniu sua equipe para uma última revisão da tecnologia.
Eles desafiaram um robô ALOHA de dois braços — você sabe, aqueles braços metálicos flexíveis com todas aquelas articulações e mãos em forma de pinça que os pesquisadores adoram usar — a realizar tarefas que nunca havia feito antes, com objetos que nunca tinha visto. "Jogamos coisas aleatórias para ele, como colocar meu sapato na mesa e pedir para guardar algumas canetas dentro", lembra Carolina. "O robô pausou por um segundo para entender a situação, depois foi em frente e fez isso."
Em seguida, eles encontraram um aro e uma bola de basquete de brinquedo e desafiaram o robô a fazer uma "enterrada". Carolina não conseguiu esconder o orgulho quando ele acertou em cheio.
Carolina diz que assistir à enterrada foi um momento de verdadeiro "nossa".
"Já faz um tempo que estamos treinando modelos para ajudar robôs com tarefas específicas e entender linguagem natural, mas isso? Isso foi um divisor de águas", explica Carolina. "O robô não tinha nenhuma experiência com basquete ou esse brinquedo específico. Mesmo assim, ele compreendeu a ideia complexa de 'enterrar a bola' e conseguiu fazer isso com facilidade. Na primeira tentativa."
Esse robô versátil foi alimentado por um modelo Gemini Robotics, parte de um novo lote de modelos multimodais projetados para robótica. Esses modelos aprimoram o Gemini 2.0 com ajustes finos usando dados específicos para robôs, integrando ações físicas com as saídas multimodais habituais do Gemini, como texto, vídeo e áudio. "Esse marco estabelece o cenário para a próxima onda de robôs que podem auxiliar em várias aplicações", disse o CEO do Google, Sundar Pichai, ao revelar os novos modelos no X.
Os modelos Gemini Robotics são incrivelmente versáteis, interativos e gerais, permitindo que robôs respondam a novos objetos, ambientes e instruções sem precisar de mais treinamento. É um grande feito, considerando os objetivos da equipe.
"Nosso objetivo é criar uma IA incorporada que capacite robôs a ajudar com tarefas cotidianas no mundo real", diz Carolina, cuja paixão por robótica foi despertada por desenhos animados de ficção científica na infância e sonhos de tarefas domésticas automatizadas. "No futuro, robôs serão apenas mais uma forma de interagirmos com a IA, como nossos telefones ou computadores — agentes físicos em nosso mundo."
Para que os robôs desempenhem bem e com segurança suas funções, eles precisam de duas habilidades principais: compreensão e tomada de decisão, e a capacidade de agir. O Gemini Robotics-ER, um modelo de "raciocínio incorporado" construído sobre o Gemini 2.0 Flash, foca no primeiro. Ele pode identificar elementos em seu ambiente, avaliar seu tamanho e posição, e prever o caminho e a pegada necessários para movê-los. Em seguida, gera código para executar a ação. Estamos agora disponibilizando esse modelo para testadores e parceiros confiáveis.
O Google DeepMind também está lançando o Gemini Robotics, seu modelo de visão-linguagem-ação de alto nível, que permite que robôs analisem uma cena, interajam com usuários e tomem ações. Ele fez grandes avanços em uma área que tem sido um desafio para roboticistas: destreza. "O que é natural para nós humanos é difícil para robôs", observa Carolina. "A destreza envolve tanto raciocínio espacial quanto manipulação física complexa. Em testes, o Gemini Robotics estabeleceu um novo padrão para destreza, lidando com tarefas complexas de várias etapas com movimentos suaves e tempos de conclusão impressionantes."
O Gemini Robotics-ER é um mestre em raciocínio incorporado, acertando em coisas como detecção de objetos, apontar para partes de objetos, encontrar pontos correspondentes e detecção de objetos em 3D.
Com o Gemini Robotics no comando, as máquinas prepararam saladas, embalaram lanches para crianças, jogaram jogos como Jogo da Velha e até criaram um origami de raposa.
Preparar modelos para lidar com uma ampla gama de tarefas não foi fácil — principalmente porque vai contra a tendência de treinar modelos para uma tarefa específica até que ela seja perfeita. "Optamos por um aprendizado de tarefas amplo, treinando modelos em uma quantidade enorme de tarefas", diz Carolina. "Percebemos que, após um tempo, eles começaram a generalizar, e acertamos em cheio."
Ambos os modelos podem se adaptar a várias incorporações, desde robôs focados em pesquisa, como o ALOHA de dois braços, até robôs humanoides como o Apollo, desenvolvido por nosso parceiro Apptronik.
Esses modelos podem se ajustar a diferentes formas, realizando tarefas como embalar uma lancheira ou limpar um quadro branco em vários corpos de robôs.
Essa adaptabilidade é crucial para um futuro em que robôs podem assumir uma variedade de papéis.
"O potencial para robôs usando esses modelos altamente gerais e capazes é vasto e emocionante", diz Carolina. "Eles podem ser extremamente úteis em indústrias onde as coisas são complexas, a precisão importa e os espaços não são projetados para humanos. E podem facilitar a vida em espaços centrados em humanos, como nossas casas. Isso ainda está um pouco distante, mas esses modelos estão nos impulsionando para frente."
Parece que a ajuda com essas tarefas domésticas pode estar no horizonte — eventualmente.
Artigo relacionado
A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física
A Kakao Mobility planeja desenvolver tecnologias de direção autônoma de nível 4 internamente, como parte de sua estratégia de IA física.Na conferência World IT Show 2026, realizada no COEX, em Seul,
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas
Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden
Recomendações de tópicos especiais relacionados
Comentários (24)
Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔
Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

Enquanto o Google DeepMind se preparava para seu mais recente anúncio sobre os novos modelos Gemini 2.0 adaptados para robótica, Carolina Parada, chefe de robótica, reuniu sua equipe para uma última revisão da tecnologia.
Eles desafiaram um robô ALOHA de dois braços — você sabe, aqueles braços metálicos flexíveis com todas aquelas articulações e mãos em forma de pinça que os pesquisadores adoram usar — a realizar tarefas que nunca havia feito antes, com objetos que nunca tinha visto. "Jogamos coisas aleatórias para ele, como colocar meu sapato na mesa e pedir para guardar algumas canetas dentro", lembra Carolina. "O robô pausou por um segundo para entender a situação, depois foi em frente e fez isso."
Em seguida, eles encontraram um aro e uma bola de basquete de brinquedo e desafiaram o robô a fazer uma "enterrada". Carolina não conseguiu esconder o orgulho quando ele acertou em cheio.
"Já faz um tempo que estamos treinando modelos para ajudar robôs com tarefas específicas e entender linguagem natural, mas isso? Isso foi um divisor de águas", explica Carolina. "O robô não tinha nenhuma experiência com basquete ou esse brinquedo específico. Mesmo assim, ele compreendeu a ideia complexa de 'enterrar a bola' e conseguiu fazer isso com facilidade. Na primeira tentativa."
Esse robô versátil foi alimentado por um modelo Gemini Robotics, parte de um novo lote de modelos multimodais projetados para robótica. Esses modelos aprimoram o Gemini 2.0 com ajustes finos usando dados específicos para robôs, integrando ações físicas com as saídas multimodais habituais do Gemini, como texto, vídeo e áudio. "Esse marco estabelece o cenário para a próxima onda de robôs que podem auxiliar em várias aplicações", disse o CEO do Google, Sundar Pichai, ao revelar os novos modelos no X.
Os modelos Gemini Robotics são incrivelmente versáteis, interativos e gerais, permitindo que robôs respondam a novos objetos, ambientes e instruções sem precisar de mais treinamento. É um grande feito, considerando os objetivos da equipe.
"Nosso objetivo é criar uma IA incorporada que capacite robôs a ajudar com tarefas cotidianas no mundo real", diz Carolina, cuja paixão por robótica foi despertada por desenhos animados de ficção científica na infância e sonhos de tarefas domésticas automatizadas. "No futuro, robôs serão apenas mais uma forma de interagirmos com a IA, como nossos telefones ou computadores — agentes físicos em nosso mundo."
O Google DeepMind também está lançando o Gemini Robotics, seu modelo de visão-linguagem-ação de alto nível, que permite que robôs analisem uma cena, interajam com usuários e tomem ações. Ele fez grandes avanços em uma área que tem sido um desafio para roboticistas: destreza. "O que é natural para nós humanos é difícil para robôs", observa Carolina. "A destreza envolve tanto raciocínio espacial quanto manipulação física complexa. Em testes, o Gemini Robotics estabeleceu um novo padrão para destreza, lidando com tarefas complexas de várias etapas com movimentos suaves e tempos de conclusão impressionantes."
Preparar modelos para lidar com uma ampla gama de tarefas não foi fácil — principalmente porque vai contra a tendência de treinar modelos para uma tarefa específica até que ela seja perfeita. "Optamos por um aprendizado de tarefas amplo, treinando modelos em uma quantidade enorme de tarefas", diz Carolina. "Percebemos que, após um tempo, eles começaram a generalizar, e acertamos em cheio."
Ambos os modelos podem se adaptar a várias incorporações, desde robôs focados em pesquisa, como o ALOHA de dois braços, até robôs humanoides como o Apollo, desenvolvido por nosso parceiro Apptronik.
"O potencial para robôs usando esses modelos altamente gerais e capazes é vasto e emocionante", diz Carolina. "Eles podem ser extremamente úteis em indústrias onde as coisas são complexas, a precisão importa e os espaços não são projetados para humanos. E podem facilitar a vida em espaços centrados em humanos, como nossas casas. Isso ainda está um pouco distante, mas esses modelos estão nos impulsionando para frente."
Parece que a ajuda com essas tarefas domésticas pode estar no horizonte — eventualmente.
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas
Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden
Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔
Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖





Lar






