O Gemini Omni, do Google, gera vídeos a partir de imagens, áudio e texto
Há três anos, o Google apresentou o Gemini com o objetivo de desenvolver um modelo de linguagem multimodal de grande porte — uma rede neural unificada treinada em texto, imagens, áudio e vídeo, capaz de gerar conteúdo em todos esses formatos.
Na conferência de desenvolvedores Google I/O realizada hoje, a empresa deu um passo adiante nessa visão com o Gemini Omni, uma nova família de modelos multimodais. O CEO do Google, Sundar Pichai, afirmou que o Omni permitirá que os usuários “criem qualquer coisa a partir de qualquer entrada”.
O foco inicial do Omni é o vídeo. Agora, os usuários podem combinar imagens, áudio, vídeo e texto. Em vez de simplesmente juntar esses elementos, o Omni raciocina de forma inteligente em todas as modalidades para produzir um resultado coerente. Isso resulta em vídeos de alta qualidade que demonstram compreensão de física, cultura, história e ciência.
O Omni também permite que os usuários editem fotos usando comandos de texto simples, eliminando a necessidade de softwares complexos, de forma semelhante à ferramenta Nano Banana do Google.
O Google já oferece o Veo, um modelo de vídeo dedicado que transforma texto e imagens em vídeos e permite dirigir e personalizar avatares. No entanto, Nicole Brichtova, diretora de gerenciamento de produtos do Google DeepMind, enfatizou que o lançamento de hoje representa mais do que apenas uma atualização do Veo: “É o próximo passo na fusão da inteligência do Gemini com os recursos de renderização de nossos modelos de mídia.”
Durante uma coletiva de imprensa na segunda-feira, o Tecnólogo-Chefe da DeepMind, Koray Kavukcuoglu, deu um exemplo: quando solicitado a criar “um vídeo explicativo em animação de massinha sobre o dobramento de proteínas”, o Omni gerou rapidamente um vídeo em stop-motion com uma narração explicando: “As proteínas começam como cadeias de aminoácidos. Elas se dobram em estruturas como hélices alfa e seções planas chamadas folhas beta, formando, por fim, uma forma tridimensional precisa.”
A visão de longo prazo para o Omni é mais ampla, abrangendo recursos como a geração de imagens a partir de áudio ou de áudio a partir de vídeo.
“Quando anunciamos o Gemini pela primeira vez, ele foi nosso primeiro modelo de IA multimodal nativo”, observou Pichai durante a coletiva. “Sabíamos que treiná-lo com uma combinação de texto, código, áudio, imagens e vídeo levaria a uma compreensão mais profunda do mundo. Com os modelos do mundo, a IA está evoluindo da previsão de texto para a simulação da realidade. O Gemini Omni é o próximo passo nessa direção.”
Como parte deste lançamento, os usuários também poderão criar vídeos com seus próprios avatares digitais — um recurso popularizado pelo aplicativo Sora da OpenAI, agora descontinuado, com o Cameos. Para evitar deepfakes, os usuários devem passar por um processo de integração específico, que envolve gravar a si mesmos enquanto dizem uma série de números, de acordo com Brichtova. O avatar é então salvo para uso futuro.
Além disso, todos os vídeos criados com o Omni incluirão a marca d’água digital SynthID do Google, permitindo que os usuários verifiquem se o conteúdo foi gerado usando produtos Gemini.
O primeiro modelo da família é o Gemini Omni Flash, lançado hoje no aplicativo Gemini, no YouTube Shorts e no estúdio criativo de IA Flow. O Flash pode renderizar vídeos de 10 segundos. Brichtova esclareceu que essa duração não é uma limitação do modelo, mas uma decisão estratégica para ampliar a acessibilidade, antecipando que a maioria dos usuários atualmente prefere clipes mais curtos. O suporte para vídeos mais longos está planejado para um futuro próximo.
O Google parece estar posicionando o Omni Flash principalmente como uma ferramenta para o consumidor. Durante uma conversa com o TechCrunch, Brichtova e o engenheiro de pesquisa da DeepMind, Gabe Barth-Maron, descreveram os casos de uso de avatares como pessoais, como criar um vídeo de si mesmo ganhando um prêmio ou visitando a Lua, ou remover um transeunte do fundo de um vídeo de férias.
Barth-Maron resumiu de forma sucinta: “São como memes personalizados.”
“Nós definitivamente nos concentramos em tornar isso fácil de usar para os consumidores”, disse Brichtova. “Poucos modelos de vídeo conseguiram entrar no mercado de consumo mainstream, então essa é a nossa tentativa de fazer isso.”
Essa facilidade de uso vem com uma ressalva: Brichtova e Barth-Maron observaram que as instruções de edição devem ser altamente específicas. Caso contrário, o Omni pode editar em excesso ou alterar involuntariamente elementos que o usuário pretendia manter — um desafio também enfrentado pelos usuários do Nano Banana.

Créditos da imagem:Google
Apesar de seu foco imediato no consumidor, o potencial do Omni para aplicações corporativas e criativas é evidente. O Google disponibilizará o Omni via API nas próximas semanas. Espera-se que a ferramenta de geração de avatares — já disponível no Shorts — ganhe força entre os criadores de conteúdo. De forma mais ampla, um fluxo de trabalho multimodal de ponta a ponta poderia revolucionar a publicidade e a produção cinematográfica.
A startup Luma AI está desenvolvendo uma ferramenta autônoma semelhante, alimentada por seu próprio modelo “unificado”, capaz de gerar uma campanha publicitária inteira a partir de um briefing e uma imagem do produto.
“Na verdade, estamos bastante orgulhosos dos recursos de renderização de texto do modelo, que são muito úteis para aplicações como publicidade”, disse Brichtova. “Se você precisa de uma colocação de produto ou mesmo apenas de um slogan, a precisão é crucial... Certamente prevemos que cineastas e outros criadores também adotarão esse modelo.”
Casos de uso mais profissionais podem ser melhor atendidos pelo futuro modelo Omni Pro, projetado para oferecer desempenho superior em todas as tarefas do Omni. O Google ainda não anunciou uma data de lançamento para o Pro, mas Brichtova indicou que ele será lançado quando “alcançarmos um salto significativo em capacidade, indo além do Flash.”
Artigo relacionado
O Google Fotos dá vida ao icônico guarda-roupa de *Clueless* com IA
O Google Fotos anunciou na quarta-feira um novo recurso baseado em IA que em breve transformará as fotos de suas roupas em um guarda-roupa digital, permitindo que você crie novas combinações de looks
O Google IO 2026 apresenta a interação por voz com a caixa de entrada do Gmail
O Google continua a integrar a IA à sua caixa de entrada. Na conferência de desenvolvedores IO 2026, realizada na terça-feira, a empresa ampliou o recurso “AI Inbox” do Gmail com IA conversacional, pe
O Google lança o Gemini no Chrome na Índia
Na quarta-feira, o Google anunciou que está expandindo a integração do Gemini com o Chrome para novas regiões, incluindo Índia, Canadá e Nova Zelândia. Essa implementação permite que os usuários de co
Recomendações de tópicos especiais relacionados
Comentários (0)
Há três anos, o Google apresentou o Gemini com o objetivo de desenvolver um modelo de linguagem multimodal de grande porte — uma rede neural unificada treinada em texto, imagens, áudio e vídeo, capaz de gerar conteúdo em todos esses formatos.
Na conferência de desenvolvedores Google I/O realizada hoje, a empresa deu um passo adiante nessa visão com o Gemini Omni, uma nova família de modelos multimodais. O CEO do Google, Sundar Pichai, afirmou que o Omni permitirá que os usuários “criem qualquer coisa a partir de qualquer entrada”.
O foco inicial do Omni é o vídeo. Agora, os usuários podem combinar imagens, áudio, vídeo e texto. Em vez de simplesmente juntar esses elementos, o Omni raciocina de forma inteligente em todas as modalidades para produzir um resultado coerente. Isso resulta em vídeos de alta qualidade que demonstram compreensão de física, cultura, história e ciência.
O Omni também permite que os usuários editem fotos usando comandos de texto simples, eliminando a necessidade de softwares complexos, de forma semelhante à ferramenta Nano Banana do Google.
O Google já oferece o Veo, um modelo de vídeo dedicado que transforma texto e imagens em vídeos e permite dirigir e personalizar avatares. No entanto, Nicole Brichtova, diretora de gerenciamento de produtos do Google DeepMind, enfatizou que o lançamento de hoje representa mais do que apenas uma atualização do Veo: “É o próximo passo na fusão da inteligência do Gemini com os recursos de renderização de nossos modelos de mídia.”
Durante uma coletiva de imprensa na segunda-feira, o Tecnólogo-Chefe da DeepMind, Koray Kavukcuoglu, deu um exemplo: quando solicitado a criar “um vídeo explicativo em animação de massinha sobre o dobramento de proteínas”, o Omni gerou rapidamente um vídeo em stop-motion com uma narração explicando: “As proteínas começam como cadeias de aminoácidos. Elas se dobram em estruturas como hélices alfa e seções planas chamadas folhas beta, formando, por fim, uma forma tridimensional precisa.”
A visão de longo prazo para o Omni é mais ampla, abrangendo recursos como a geração de imagens a partir de áudio ou de áudio a partir de vídeo.
“Quando anunciamos o Gemini pela primeira vez, ele foi nosso primeiro modelo de IA multimodal nativo”, observou Pichai durante a coletiva. “Sabíamos que treiná-lo com uma combinação de texto, código, áudio, imagens e vídeo levaria a uma compreensão mais profunda do mundo. Com os modelos do mundo, a IA está evoluindo da previsão de texto para a simulação da realidade. O Gemini Omni é o próximo passo nessa direção.”
Como parte deste lançamento, os usuários também poderão criar vídeos com seus próprios avatares digitais — um recurso popularizado pelo aplicativo Sora da OpenAI, agora descontinuado, com o Cameos. Para evitar deepfakes, os usuários devem passar por um processo de integração específico, que envolve gravar a si mesmos enquanto dizem uma série de números, de acordo com Brichtova. O avatar é então salvo para uso futuro.
Além disso, todos os vídeos criados com o Omni incluirão a marca d’água digital SynthID do Google, permitindo que os usuários verifiquem se o conteúdo foi gerado usando produtos Gemini.
O primeiro modelo da família é o Gemini Omni Flash, lançado hoje no aplicativo Gemini, no YouTube Shorts e no estúdio criativo de IA Flow. O Flash pode renderizar vídeos de 10 segundos. Brichtova esclareceu que essa duração não é uma limitação do modelo, mas uma decisão estratégica para ampliar a acessibilidade, antecipando que a maioria dos usuários atualmente prefere clipes mais curtos. O suporte para vídeos mais longos está planejado para um futuro próximo.
O Google parece estar posicionando o Omni Flash principalmente como uma ferramenta para o consumidor. Durante uma conversa com o TechCrunch, Brichtova e o engenheiro de pesquisa da DeepMind, Gabe Barth-Maron, descreveram os casos de uso de avatares como pessoais, como criar um vídeo de si mesmo ganhando um prêmio ou visitando a Lua, ou remover um transeunte do fundo de um vídeo de férias.
Barth-Maron resumiu de forma sucinta: “São como memes personalizados.”
“Nós definitivamente nos concentramos em tornar isso fácil de usar para os consumidores”, disse Brichtova. “Poucos modelos de vídeo conseguiram entrar no mercado de consumo mainstream, então essa é a nossa tentativa de fazer isso.”
Essa facilidade de uso vem com uma ressalva: Brichtova e Barth-Maron observaram que as instruções de edição devem ser altamente específicas. Caso contrário, o Omni pode editar em excesso ou alterar involuntariamente elementos que o usuário pretendia manter — um desafio também enfrentado pelos usuários do Nano Banana.

Créditos da imagem:Google
Apesar de seu foco imediato no consumidor, o potencial do Omni para aplicações corporativas e criativas é evidente. O Google disponibilizará o Omni via API nas próximas semanas. Espera-se que a ferramenta de geração de avatares — já disponível no Shorts — ganhe força entre os criadores de conteúdo. De forma mais ampla, um fluxo de trabalho multimodal de ponta a ponta poderia revolucionar a publicidade e a produção cinematográfica.
A startup Luma AI está desenvolvendo uma ferramenta autônoma semelhante, alimentada por seu próprio modelo “unificado”, capaz de gerar uma campanha publicitária inteira a partir de um briefing e uma imagem do produto.
“Na verdade, estamos bastante orgulhosos dos recursos de renderização de texto do modelo, que são muito úteis para aplicações como publicidade”, disse Brichtova. “Se você precisa de uma colocação de produto ou mesmo apenas de um slogan, a precisão é crucial... Certamente prevemos que cineastas e outros criadores também adotarão esse modelo.”
Casos de uso mais profissionais podem ser melhor atendidos pelo futuro modelo Omni Pro, projetado para oferecer desempenho superior em todas as tarefas do Omni. O Google ainda não anunciou uma data de lançamento para o Pro, mas Brichtova indicou que ele será lançado quando “alcançarmos um salto significativo em capacidade, indo além do Flash.”
O Google Fotos dá vida ao icônico guarda-roupa de *Clueless* com IA
O Google Fotos anunciou na quarta-feira um novo recurso baseado em IA que em breve transformará as fotos de suas roupas em um guarda-roupa digital, permitindo que você crie novas combinações de looks
O Google IO 2026 apresenta a interação por voz com a caixa de entrada do Gmail
O Google continua a integrar a IA à sua caixa de entrada. Na conferência de desenvolvedores IO 2026, realizada na terça-feira, a empresa ampliou o recurso “AI Inbox” do Gmail com IA conversacional, pe
O Google lança o Gemini no Chrome na Índia
Na quarta-feira, o Google anunciou que está expandindo a integração do Gemini com o Chrome para novas regiões, incluindo Índia, Canadá e Nova Zelândia. Essa implementação permite que os usuários de co





Lar






