Como construímos a nova família de modelos de robótica Gemini

Lar

Notícias

10 de Abril de 2025

JimmyKing

# ai # Gemini

Como construímos a nova família de modelos de robótica Gemini

Enquanto o Google DeepMind se preparava para seu mais recente anúncio sobre os novos modelos Gemini 2.0 adaptados para robótica, Carolina Parada, chefe de robótica, reuniu sua equipe para uma última revisão da tecnologia.

Eles desafiaram um robô ALOHA de dois braços — você sabe, aqueles braços metálicos flexíveis com todas aquelas articulações e mãos em forma de pinça que os pesquisadores adoram usar — a realizar tarefas que nunca havia feito antes, com objetos que nunca tinha visto. "Jogamos coisas aleatórias para ele, como colocar meu sapato na mesa e pedir para guardar algumas canetas dentro", lembra Carolina. "O robô pausou por um segundo para entender a situação, depois foi em frente e fez isso."

Em seguida, eles encontraram um aro e uma bola de basquete de brinquedo e desafiaram o robô a fazer uma "enterrada". Carolina não conseguiu esconder o orgulho quando ele acertou em cheio.

Carolina diz que assistir à enterrada foi um momento de verdadeiro "nossa".

"Já faz um tempo que estamos treinando modelos para ajudar robôs com tarefas específicas e entender linguagem natural, mas isso? Isso foi um divisor de águas", explica Carolina. "O robô não tinha nenhuma experiência com basquete ou esse brinquedo específico. Mesmo assim, ele compreendeu a ideia complexa de 'enterrar a bola' e conseguiu fazer isso com facilidade. Na primeira tentativa."

Esse robô versátil foi alimentado por um modelo Gemini Robotics, parte de um novo lote de modelos multimodais projetados para robótica. Esses modelos aprimoram o Gemini 2.0 com ajustes finos usando dados específicos para robôs, integrando ações físicas com as saídas multimodais habituais do Gemini, como texto, vídeo e áudio. "Esse marco estabelece o cenário para a próxima onda de robôs que podem auxiliar em várias aplicações", disse o CEO do Google, Sundar Pichai, ao revelar os novos modelos no X.

Os modelos Gemini Robotics são incrivelmente versáteis, interativos e gerais, permitindo que robôs respondam a novos objetos, ambientes e instruções sem precisar de mais treinamento. É um grande feito, considerando os objetivos da equipe.

"Nosso objetivo é criar uma IA incorporada que capacite robôs a ajudar com tarefas cotidianas no mundo real", diz Carolina, cuja paixão por robótica foi despertada por desenhos animados de ficção científica na infância e sonhos de tarefas domésticas automatizadas. "No futuro, robôs serão apenas mais uma forma de interagirmos com a IA, como nossos telefones ou computadores — agentes físicos em nosso mundo."

Para que os robôs desempenhem bem e com segurança suas funções, eles precisam de duas habilidades principais: compreensão e tomada de decisão, e a capacidade de agir. O Gemini Robotics-ER, um modelo de "raciocínio incorporado" construído sobre o Gemini 2.0 Flash, foca no primeiro. Ele pode identificar elementos em seu ambiente, avaliar seu tamanho e posição, e prever o caminho e a pegada necessários para movê-los. Em seguida, gera código para executar a ação. Estamos agora disponibilizando esse modelo para testadores e parceiros confiáveis.

O Google DeepMind também está lançando o Gemini Robotics, seu modelo de visão-linguagem-ação de alto nível, que permite que robôs analisem uma cena, interajam com usuários e tomem ações. Ele fez grandes avanços em uma área que tem sido um desafio para roboticistas: destreza. "O que é natural para nós humanos é difícil para robôs", observa Carolina. "A destreza envolve tanto raciocínio espacial quanto manipulação física complexa. Em testes, o Gemini Robotics estabeleceu um novo padrão para destreza, lidando com tarefas complexas de várias etapas com movimentos suaves e tempos de conclusão impressionantes."

O Gemini Robotics-ER é um mestre em raciocínio incorporado, acertando em coisas como detecção de objetos, apontar para partes de objetos, encontrar pontos correspondentes e detecção de objetos em 3D.

Com o Gemini Robotics no comando, as máquinas prepararam saladas, embalaram lanches para crianças, jogaram jogos como Jogo da Velha e até criaram um origami de raposa.

Preparar modelos para lidar com uma ampla gama de tarefas não foi fácil — principalmente porque vai contra a tendência de treinar modelos para uma tarefa específica até que ela seja perfeita. "Optamos por um aprendizado de tarefas amplo, treinando modelos em uma quantidade enorme de tarefas", diz Carolina. "Percebemos que, após um tempo, eles começaram a generalizar, e acertamos em cheio."

Ambos os modelos podem se adaptar a várias incorporações, desde robôs focados em pesquisa, como o ALOHA de dois braços, até robôs humanoides como o Apollo, desenvolvido por nosso parceiro Apptronik.

Esses modelos podem se ajustar a diferentes formas, realizando tarefas como embalar uma lancheira ou limpar um quadro branco em vários corpos de robôs.

Essa adaptabilidade é crucial para um futuro em que robôs podem assumir uma variedade de papéis.

"O potencial para robôs usando esses modelos altamente gerais e capazes é vasto e emocionante", diz Carolina. "Eles podem ser extremamente úteis em indústrias onde as coisas são complexas, a precisão importa e os espaços não são projetados para humanos. E podem facilitar a vida em espaços centrados em humanos, como nossas casas. Isso ainda está um pouco distante, mas esses modelos estão nos impulsionando para frente."

Parece que a ajuda com essas tarefas domésticas pode estar no horizonte — eventualmente.

Artigo relacionado

Google relança o 'Pergunte às fotos' com IA e recursos de velocidade aprimorados Após uma interrupção temporária nos testes, o Google está relançando a funcionalidade de pesquisa "Pergunte às fotos", orientada por IA, no Google Fotos, com melhorias significativas. Desenvolvido pel

A Microsoft hospeda os modelos Grok 3 avançados da xAI em uma nova colaboração de IA No início deste mês, meu jornalismo investigativo *Notepad* revelou os planos da Microsoft de integrar os modelos de IA Grok de Elon Musk - revelações que agora foram oficialmente confirmadas. Hoje, n

Apple se une à Anthropic para desenvolver ferramenta de codificação de IA para o Xcode Apple e Anthropic colaboram em um assistente de codificação com IADe acordo com a Bloomberg, a Apple está desenvolvendo um assistente avançado de codificação com IA que será integrado diretamente ao

Comentários (22)

0/200

Enviar

CarlGarcia

19 de Setembro de 2025 à33 05:30:33 WEST

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez

8 de Agosto de 2025 à0 18:01:00 WEST

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller

14 de Abril de 2025 à22 01:57:22 WEST

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen

13 de Abril de 2025 à57 04:41:57 WEST

新しいジェミニロボティクスモデルは驚異的です！ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール！🤖

BenHernández

12 de Abril de 2025 à4 23:11:04 WEST

新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする！二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど！

JonathanAllen

12 de Abril de 2025 à44 13:44:44 WEST

Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia AI Builder e Power Automate Revolucionam a Sumarização de Documentos O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude

Mais

Apresentou