Como construímos a nova família de modelos de robótica Gemini

Enquanto o Google DeepMind se preparava para seu mais recente anúncio sobre os novos modelos Gemini 2.0 adaptados para robótica, Carolina Parada, chefe de robótica, reuniu sua equipe para uma última revisão da tecnologia.
Eles desafiaram um robô ALOHA de dois braços — você sabe, aqueles braços metálicos flexíveis com todas aquelas articulações e mãos em forma de pinça que os pesquisadores adoram usar — a realizar tarefas que nunca havia feito antes, com objetos que nunca tinha visto. "Jogamos coisas aleatórias para ele, como colocar meu sapato na mesa e pedir para guardar algumas canetas dentro", lembra Carolina. "O robô pausou por um segundo para entender a situação, depois foi em frente e fez isso."
Em seguida, eles encontraram um aro e uma bola de basquete de brinquedo e desafiaram o robô a fazer uma "enterrada". Carolina não conseguiu esconder o orgulho quando ele acertou em cheio.
Carolina diz que assistir à enterrada foi um momento de verdadeiro "nossa".
"Já faz um tempo que estamos treinando modelos para ajudar robôs com tarefas específicas e entender linguagem natural, mas isso? Isso foi um divisor de águas", explica Carolina. "O robô não tinha nenhuma experiência com basquete ou esse brinquedo específico. Mesmo assim, ele compreendeu a ideia complexa de 'enterrar a bola' e conseguiu fazer isso com facilidade. Na primeira tentativa."
Esse robô versátil foi alimentado por um modelo Gemini Robotics, parte de um novo lote de modelos multimodais projetados para robótica. Esses modelos aprimoram o Gemini 2.0 com ajustes finos usando dados específicos para robôs, integrando ações físicas com as saídas multimodais habituais do Gemini, como texto, vídeo e áudio. "Esse marco estabelece o cenário para a próxima onda de robôs que podem auxiliar em várias aplicações", disse o CEO do Google, Sundar Pichai, ao revelar os novos modelos no X.
Os modelos Gemini Robotics são incrivelmente versáteis, interativos e gerais, permitindo que robôs respondam a novos objetos, ambientes e instruções sem precisar de mais treinamento. É um grande feito, considerando os objetivos da equipe.
"Nosso objetivo é criar uma IA incorporada que capacite robôs a ajudar com tarefas cotidianas no mundo real", diz Carolina, cuja paixão por robótica foi despertada por desenhos animados de ficção científica na infância e sonhos de tarefas domésticas automatizadas. "No futuro, robôs serão apenas mais uma forma de interagirmos com a IA, como nossos telefones ou computadores — agentes físicos em nosso mundo."
Para que os robôs desempenhem bem e com segurança suas funções, eles precisam de duas habilidades principais: compreensão e tomada de decisão, e a capacidade de agir. O Gemini Robotics-ER, um modelo de "raciocínio incorporado" construído sobre o Gemini 2.0 Flash, foca no primeiro. Ele pode identificar elementos em seu ambiente, avaliar seu tamanho e posição, e prever o caminho e a pegada necessários para movê-los. Em seguida, gera código para executar a ação. Estamos agora disponibilizando esse modelo para testadores e parceiros confiáveis.
O Google DeepMind também está lançando o Gemini Robotics, seu modelo de visão-linguagem-ação de alto nível, que permite que robôs analisem uma cena, interajam com usuários e tomem ações. Ele fez grandes avanços em uma área que tem sido um desafio para roboticistas: destreza. "O que é natural para nós humanos é difícil para robôs", observa Carolina. "A destreza envolve tanto raciocínio espacial quanto manipulação física complexa. Em testes, o Gemini Robotics estabeleceu um novo padrão para destreza, lidando com tarefas complexas de várias etapas com movimentos suaves e tempos de conclusão impressionantes."
O Gemini Robotics-ER é um mestre em raciocínio incorporado, acertando em coisas como detecção de objetos, apontar para partes de objetos, encontrar pontos correspondentes e detecção de objetos em 3D.
Com o Gemini Robotics no comando, as máquinas prepararam saladas, embalaram lanches para crianças, jogaram jogos como Jogo da Velha e até criaram um origami de raposa.
Preparar modelos para lidar com uma ampla gama de tarefas não foi fácil — principalmente porque vai contra a tendência de treinar modelos para uma tarefa específica até que ela seja perfeita. "Optamos por um aprendizado de tarefas amplo, treinando modelos em uma quantidade enorme de tarefas", diz Carolina. "Percebemos que, após um tempo, eles começaram a generalizar, e acertamos em cheio."
Ambos os modelos podem se adaptar a várias incorporações, desde robôs focados em pesquisa, como o ALOHA de dois braços, até robôs humanoides como o Apollo, desenvolvido por nosso parceiro Apptronik.
Esses modelos podem se ajustar a diferentes formas, realizando tarefas como embalar uma lancheira ou limpar um quadro branco em vários corpos de robôs.
Essa adaptabilidade é crucial para um futuro em que robôs podem assumir uma variedade de papéis.
"O potencial para robôs usando esses modelos altamente gerais e capazes é vasto e emocionante", diz Carolina. "Eles podem ser extremamente úteis em indústrias onde as coisas são complexas, a precisão importa e os espaços não são projetados para humanos. E podem facilitar a vida em espaços centrados em humanos, como nossas casas. Isso ainda está um pouco distante, mas esses modelos estão nos impulsionando para frente."
Parece que a ajuda com essas tarefas domésticas pode estar no horizonte — eventualmente.
Artigo relacionado
Desbloqueando o Crescimento de IA por Meio de Investimentos em Força de Trabalho e Infraestrutura Energética
A IA oferece aos Estados Unidos uma oportunidade transformadora para impulsionar a inovação e o crescimento econômico. Sua adoção estimulará a economia, criará empregos e acelerará o progresso científ
Adobe e Figma Integram o Modelo Avançado de Geração de Imagens da OpenAI
A geração de imagens aprimorada da OpenAI no ChatGPT impulsionou um aumento de usuários, alimentado por sua capacidade de produzir visuais no estilo Studio Ghibli e designs únicos, e agora está se exp
Gigantes Tecnológicos Divididos sobre o Código de IA da UE à Medida que o Prazo de Conformidade se Aproxima
O Código de Prática de Propósito Geral de IA da UE revelou diferenças marcantes entre as principais empresas de tecnologia. A Microsoft expressou sua intenção de adotar o quadro voluntário de conformi
Comentários (21)
0/200
KeithLopez
8 de Agosto de 2025 à0 18:01:00 WEST
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
0
WilliamMiller
14 de Abril de 2025 à22 01:57:22 WEST
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖
0
StephenGreen
13 de Abril de 2025 à57 04:41:57 WEST
新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖
0
BenHernández
12 de Abril de 2025 à4 23:11:04 WEST
新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!
0
JonathanAllen
12 de Abril de 2025 à44 13:44:44 WEST
Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!
0
DonaldSanchez
12 de Abril de 2025 à17 03:55:17 WEST
제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!
0
Enquanto o Google DeepMind se preparava para seu mais recente anúncio sobre os novos modelos Gemini 2.0 adaptados para robótica, Carolina Parada, chefe de robótica, reuniu sua equipe para uma última revisão da tecnologia.
Eles desafiaram um robô ALOHA de dois braços — você sabe, aqueles braços metálicos flexíveis com todas aquelas articulações e mãos em forma de pinça que os pesquisadores adoram usar — a realizar tarefas que nunca havia feito antes, com objetos que nunca tinha visto. "Jogamos coisas aleatórias para ele, como colocar meu sapato na mesa e pedir para guardar algumas canetas dentro", lembra Carolina. "O robô pausou por um segundo para entender a situação, depois foi em frente e fez isso."
Em seguida, eles encontraram um aro e uma bola de basquete de brinquedo e desafiaram o robô a fazer uma "enterrada". Carolina não conseguiu esconder o orgulho quando ele acertou em cheio.
"Já faz um tempo que estamos treinando modelos para ajudar robôs com tarefas específicas e entender linguagem natural, mas isso? Isso foi um divisor de águas", explica Carolina. "O robô não tinha nenhuma experiência com basquete ou esse brinquedo específico. Mesmo assim, ele compreendeu a ideia complexa de 'enterrar a bola' e conseguiu fazer isso com facilidade. Na primeira tentativa."
Esse robô versátil foi alimentado por um modelo Gemini Robotics, parte de um novo lote de modelos multimodais projetados para robótica. Esses modelos aprimoram o Gemini 2.0 com ajustes finos usando dados específicos para robôs, integrando ações físicas com as saídas multimodais habituais do Gemini, como texto, vídeo e áudio. "Esse marco estabelece o cenário para a próxima onda de robôs que podem auxiliar em várias aplicações", disse o CEO do Google, Sundar Pichai, ao revelar os novos modelos no X.
Os modelos Gemini Robotics são incrivelmente versáteis, interativos e gerais, permitindo que robôs respondam a novos objetos, ambientes e instruções sem precisar de mais treinamento. É um grande feito, considerando os objetivos da equipe.
"Nosso objetivo é criar uma IA incorporada que capacite robôs a ajudar com tarefas cotidianas no mundo real", diz Carolina, cuja paixão por robótica foi despertada por desenhos animados de ficção científica na infância e sonhos de tarefas domésticas automatizadas. "No futuro, robôs serão apenas mais uma forma de interagirmos com a IA, como nossos telefones ou computadores — agentes físicos em nosso mundo."
O Google DeepMind também está lançando o Gemini Robotics, seu modelo de visão-linguagem-ação de alto nível, que permite que robôs analisem uma cena, interajam com usuários e tomem ações. Ele fez grandes avanços em uma área que tem sido um desafio para roboticistas: destreza. "O que é natural para nós humanos é difícil para robôs", observa Carolina. "A destreza envolve tanto raciocínio espacial quanto manipulação física complexa. Em testes, o Gemini Robotics estabeleceu um novo padrão para destreza, lidando com tarefas complexas de várias etapas com movimentos suaves e tempos de conclusão impressionantes."
Preparar modelos para lidar com uma ampla gama de tarefas não foi fácil — principalmente porque vai contra a tendência de treinar modelos para uma tarefa específica até que ela seja perfeita. "Optamos por um aprendizado de tarefas amplo, treinando modelos em uma quantidade enorme de tarefas", diz Carolina. "Percebemos que, após um tempo, eles começaram a generalizar, e acertamos em cheio."
Ambos os modelos podem se adaptar a várias incorporações, desde robôs focados em pesquisa, como o ALOHA de dois braços, até robôs humanoides como o Apollo, desenvolvido por nosso parceiro Apptronik.
"O potencial para robôs usando esses modelos altamente gerais e capazes é vasto e emocionante", diz Carolina. "Eles podem ser extremamente úteis em indústrias onde as coisas são complexas, a precisão importa e os espaços não são projetados para humanos. E podem facilitar a vida em espaços centrados em humanos, como nossas casas. Isso ainda está um pouco distante, mas esses modelos estão nos impulsionando para frente."
Parece que a ajuda com essas tarefas domésticas pode estar no horizonte — eventualmente.



The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖




Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖




新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖




新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!




Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!




제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!












