opção
Lar
Notícias
O Gemini Omni, do Google, gera vídeos a partir de imagens, áudio e texto

O Gemini Omni, do Google, gera vídeos a partir de imagens, áudio e texto

26 de Maio de 2026
71

Há três anos, o Google apresentou o Gemini com o objetivo de desenvolver um modelo de linguagem multimodal de grande porte — uma rede neural unificada treinada em texto, imagens, áudio e vídeo, capaz de gerar conteúdo em todos esses formatos.

Na conferência de desenvolvedores Google I/O realizada hoje, a empresa deu um passo adiante nessa visão com o Gemini Omni, uma nova família de modelos multimodais. O CEO do Google, Sundar Pichai, afirmou que o Omni permitirá que os usuários “criem qualquer coisa a partir de qualquer entrada”.

O foco inicial do Omni é o vídeo. Agora, os usuários podem combinar imagens, áudio, vídeo e texto. Em vez de simplesmente juntar esses elementos, o Omni raciocina de forma inteligente em todas as modalidades para produzir um resultado coerente. Isso resulta em vídeos de alta qualidade que demonstram compreensão de física, cultura, história e ciência.

O Omni também permite que os usuários editem fotos usando comandos de texto simples, eliminando a necessidade de softwares complexos, de forma semelhante à ferramenta Nano Banana do Google.

O Google já oferece o Veo, um modelo de vídeo dedicado que transforma texto e imagens em vídeos e permite dirigir e personalizar avatares. No entanto, Nicole Brichtova, diretora de gerenciamento de produtos do Google DeepMind, enfatizou que o lançamento de hoje representa mais do que apenas uma atualização do Veo: “É o próximo passo na fusão da inteligência do Gemini com os recursos de renderização de nossos modelos de mídia.”

Durante uma coletiva de imprensa na segunda-feira, o Tecnólogo-Chefe da DeepMind, Koray Kavukcuoglu, deu um exemplo: quando solicitado a criar “um vídeo explicativo em animação de massinha sobre o dobramento de proteínas”, o Omni gerou rapidamente um vídeo em stop-motion com uma narração explicando: “As proteínas começam como cadeias de aminoácidos. Elas se dobram em estruturas como hélices alfa e seções planas chamadas folhas beta, formando, por fim, uma forma tridimensional precisa.”

A visão de longo prazo para o Omni é mais ampla, abrangendo recursos como a geração de imagens a partir de áudio ou de áudio a partir de vídeo.

“Quando anunciamos o Gemini pela primeira vez, ele foi nosso primeiro modelo de IA multimodal nativo”, observou Pichai durante a coletiva. “Sabíamos que treiná-lo com uma combinação de texto, código, áudio, imagens e vídeo levaria a uma compreensão mais profunda do mundo. Com os modelos do mundo, a IA está evoluindo da previsão de texto para a simulação da realidade. O Gemini Omni é o próximo passo nessa direção.”

Como parte deste lançamento, os usuários também poderão criar vídeos com seus próprios avatares digitais — um recurso popularizado pelo aplicativo Sora da OpenAI, agora descontinuado, com o Cameos. Para evitar deepfakes, os usuários devem passar por um processo de integração específico, que envolve gravar a si mesmos enquanto dizem uma série de números, de acordo com Brichtova. O avatar é então salvo para uso futuro.

Além disso, todos os vídeos criados com o Omni incluirão a marca d’água digital SynthID do Google, permitindo que os usuários verifiquem se o conteúdo foi gerado usando produtos Gemini.

O primeiro modelo da família é o Gemini Omni Flash, lançado hoje no aplicativo Gemini, no YouTube Shorts e no estúdio criativo de IA Flow. O Flash pode renderizar vídeos de 10 segundos. Brichtova esclareceu que essa duração não é uma limitação do modelo, mas uma decisão estratégica para ampliar a acessibilidade, antecipando que a maioria dos usuários atualmente prefere clipes mais curtos. O suporte para vídeos mais longos está planejado para um futuro próximo.

O Google parece estar posicionando o Omni Flash principalmente como uma ferramenta para o consumidor. Durante uma conversa com o TechCrunch, Brichtova e o engenheiro de pesquisa da DeepMind, Gabe Barth-Maron, descreveram os casos de uso de avatares como pessoais, como criar um vídeo de si mesmo ganhando um prêmio ou visitando a Lua, ou remover um transeunte do fundo de um vídeo de férias.

Barth-Maron resumiu de forma sucinta: “São como memes personalizados.”

“Nós definitivamente nos concentramos em tornar isso fácil de usar para os consumidores”, disse Brichtova. “Poucos modelos de vídeo conseguiram entrar no mercado de consumo mainstream, então essa é a nossa tentativa de fazer isso.”

Essa facilidade de uso vem com uma ressalva: Brichtova e Barth-Maron observaram que as instruções de edição devem ser altamente específicas. Caso contrário, o Omni pode editar em excesso ou alterar involuntariamente elementos que o usuário pretendia manter — um desafio também enfrentado pelos usuários do Nano Banana.

O Gemini Omni, do Google, transforma imagens, áudio e texto em vídeo — e isso é só o começo

Créditos da imagem:Google

Apesar de seu foco imediato no consumidor, o potencial do Omni para aplicações corporativas e criativas é evidente. O Google disponibilizará o Omni via API nas próximas semanas. Espera-se que a ferramenta de geração de avatares — já disponível no Shorts — ganhe força entre os criadores de conteúdo. De forma mais ampla, um fluxo de trabalho multimodal de ponta a ponta poderia revolucionar a publicidade e a produção cinematográfica.

A startup Luma AI está desenvolvendo uma ferramenta autônoma semelhante, alimentada por seu próprio modelo “unificado”, capaz de gerar uma campanha publicitária inteira a partir de um briefing e uma imagem do produto.

“Na verdade, estamos bastante orgulhosos dos recursos de renderização de texto do modelo, que são muito úteis para aplicações como publicidade”, disse Brichtova. “Se você precisa de uma colocação de produto ou mesmo apenas de um slogan, a precisão é crucial... Certamente prevemos que cineastas e outros criadores também adotarão esse modelo.”

Casos de uso mais profissionais podem ser melhor atendidos pelo futuro modelo Omni Pro, projetado para oferecer desempenho superior em todas as tarefas do Omni. O Google ainda não anunciou uma data de lançamento para o Pro, mas Brichtova indicou que ele será lançado quando “alcançarmos um salto significativo em capacidade, indo além do Flash.”

Artigo relacionado
O Google Fotos dá vida ao icônico guarda-roupa de *Clueless* com IA O Google Fotos dá vida ao icônico guarda-roupa de *Clueless* com IA O Google Fotos anunciou na quarta-feira um novo recurso baseado em IA que em breve transformará as fotos de suas roupas em um guarda-roupa digital, permitindo que você crie novas combinações de looks
O Google IO 2026 apresenta a interação por voz com a caixa de entrada do Gmail O Google IO 2026 apresenta a interação por voz com a caixa de entrada do Gmail O Google continua a integrar a IA à sua caixa de entrada. Na conferência de desenvolvedores IO 2026, realizada na terça-feira, a empresa ampliou o recurso “AI Inbox” do Gmail com IA conversacional, pe
O Google lança o Gemini no Chrome na Índia O Google lança o Gemini no Chrome na Índia Na quarta-feira, o Google anunciou que está expandindo a integração do Gemini com o Chrome para novas regiões, incluindo Índia, Canadá e Nova Zelândia. Essa implementação permite que os usuários de co
Recomendações de tópicos especiais relacionados
chatbot Orquestradores de Múltiplos Agentes IA: Projeto de Fluxos de Trabalho Automatizados Complexos através do Linguagem Natural
Orquestradores de Múltiplos Agentes IA: Projeto de Fluxos de Trabalho Automatizados Complexos através do Linguagem Natural

2026 Mais recente: Descubra os melhores orquestradores multi-agente de IA para projetar fluxos de trabalho automatizados complexos através do uso da linguagem natural. Nossa lista selecionada apresenta plataformas poderosas e altamente avaliadas para uma automação de tarefas sem falhas e um gerenciamento inteligente de processos. Compare opções gratuitas e pagas com informações reais do mundo real. Desfrute de uma vantagem competitiva com as classificações atualizadas semanalmente por especialistas da XIX.AI.

10 ferramentas
xix.ai
Edição de imagem Melhores softwares de redução de ruído por IA: Remova granulação e artefatos em fotografias noturnas com baixa luz
Melhores softwares de redução de ruído por IA: Remova granulação e artefatos em fotografias noturnas com baixa luz

Descubra os melhores softwares de redução de ruído por IA de 2026 para fotografias noturnas em baixas condições de luz. Nossa lista selecionada e avaliada compara ferramentas gratuitas e pagas, apresentando testes reais e classificações atualizadas semanalmente. Remova facilmente granulação e distorções nas imagens. Desfrute das vantagens da inteligência artificial em XIX.AI.

10 ferramentas
xix.ai
chatbot Os melhores geradores personalizados de namoradas virtuais com IA: crie personalidades, hobbies e histórias de vida exclusivas
Os melhores geradores personalizados de namoradas virtuais com IA: crie personalidades, hobbies e histórias de vida exclusivas

Descubra os melhores geradores personalizados de namoradas com IA de 2026 no XIX.AI. Explore nossa lista selecionada e com as melhores avaliações para criar personalidades únicas, hobbies e histórias de fundo detalhadas. Compare as opções gratuitas com as pagas com informações reais. Encontre hoje mesmo sua companheira criativa perfeita.

10 ferramentas
xix.ai
Produtividade Projetistas de arquitetura de IA: criem arquiteturas de sistemas escaláveis usando linguagem natural
Projetistas de arquitetura de IA: criem arquiteturas de sistemas escaláveis usando linguagem natural

Descubra as melhores ferramentas de projeto de arquitetura de IA de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta soluções poderosas e revolucionárias para criar arquiteturas de sistemas escaláveis usando linguagem natural. Compare opções gratuitas e pagas com informações práticas. Aproveite ao máximo sua vantagem em IA e otimize o desenvolvimento hoje mesmo.

10 ferramentas
xix.ai
Criação de quadrinhos Criadores de Perfis de Personagens AI: Gere Histórias Detalhadas e Referências Visuais para Personagens Principais em Mangás
Criadores de Perfis de Personagens AI: Gere Histórias Detalhadas e Referências Visuais para Personagens Principais em Mangás

Os melhores criadores de perfis de personagens AI de 2026: Descubra ferramentas altamente avaliadas para gerar histórias detalhadas e referências visuais para seus personagens principais em mangá. Nossa lista, atualizada semanalmente, compara opções gratuitas e pagas com base em testes reais. Encontre soluções poderosas que podem transformar seu processo criativo e ajudá-lo a criar personagens envolventes de forma mais eficiente. Explore as classificações no XIX.AI e descubra hoje mesmo o aliado perfeito para sua narrativa.

10 ferramentas
xix.ai
Saúde e Bem-Estar Copilotos de gravidez com IA: gere planos seguros de exercícios e nutrição, trimestre a trimestre
Copilotos de gravidez com IA: gere planos seguros de exercícios e nutrição, trimestre a trimestre

Descubra os melhores assistentes de IA para a gravidez de 2026, com planos de exercícios e nutrição seguros e personalizados, trimestre a trimestre. Receba recomendações selecionadas e com as melhores avaliações, incluindo comparações entre opções gratuitas e pagas, além de informações práticas. Comece sua jornada de gravidez da maneira mais saudável com o guia especializado da XIX.AI. Explore agora.

10 ferramentas
xix.ai
Comentários (0)
0/500
OR