Lar
O CEO da DeepMind Demis Hassabis anuncia a integração futura dos modelos Gemini and Veo AI do Google

Em um recente episódio do podcast Possible, coapresentado pelo cofundador do LinkedIn, Reid Hoffman, o CEO da Google DeepMind, Demis Hassabis, compartilhou algumas notícias empolgantes sobre os planos do Google. Ele revelou que o Google está buscando fundir seus modelos de IA Gemini com os modelos de geração de vídeo Veo. Essa fusão visa aprimorar a compreensão do Gemini sobre o mundo físico, tornando-o mais apto a entender dinâmicas da vida real.
Hassabis enfatizou que, desde o início, o Gemini foi projetado para ser multimodal. "Sempre construímos o Gemini, nosso modelo de fundação, para ser multimodal desde o começo," ele explicou. A motivação por trás dessa abordagem? Uma visão para um assistente digital universal que possa realmente ajudar na vida cotidiana. "Um assistente que … realmente te ajuda no mundo real," Hassabis elaborou.
A indústria de IA está progredindo constantemente em direção ao que você poderia chamar de modelos "omni" — aqueles capazes de lidar e sintetizar vários tipos de mídia. As últimas iterações do Gemini do Google, por exemplo, podem produzir não apenas texto, mas também áudio e imagens. Enquanto isso, o modelo padrão do ChatGPT da OpenAI pode criar imagens na hora, incluindo arte encantadora no estilo Studio Ghibli. A Amazon não está muito atrás, com planos de lançar um modelo "any-to-any" ainda este ano.
Esses modelos omni exigem uma quantidade considerável de dados de treinamento — pense em imagens, vídeos, áudio e texto. Hassabis sugeriu que os dados de vídeo do Veo vêm principalmente do YouTube, um tesouro pertencente ao Google. "Basicamente, ao assistir a vídeos do YouTube — muitos vídeos do YouTube — [Veo 2] pode descobrir, sabe, a física do mundo," ele observou.
O Google havia mencionado anteriormente ao TechCrunch que seus modelos "podem ser" treinados com "algum" conteúdo do YouTube, em conformidade com acordos feitos com criadores do YouTube. Vale notar que, no último ano, o Google expandiu seus termos de serviço, em parte para acessar mais dados para treinar seus modelos de IA.
Artigo relacionado
O Google integra IA autônoma e widgets com codificação de ambiente no Android
O Google anunciou um novo conjunto de recursos de IA sob a marca Gemini Intelligence durante o evento “Android Show: I/O Edition”, na terça-feira. Esses recursos incluem a capacidade da IA de realizar
O modelo de IA da Meta se destaca, mas a identidade de código aberto se desgasta
O cenário da IA de código aberto sempre ofereceu muitas opções. Durante anos, os desenvolvedores puderam acessar modelos como o Mistral, o Falcon e um número crescente de alternativas de código aberto
Pai processa o Google e culpa o chatbot Gemini pela ilusão fatal que levou à morte do filho
Jonathan Gavalas, de 36 anos, começou a usar o chatbot de IA Gemini, do Google, em agosto de 2025 para obter assistência em compras, ajuda na redação de textos e planejamento de viagens. Em 2 de outub
Recomendações de tópicos especiais relacionados
Comentários (2)
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

Em um recente episódio do podcast Possible, coapresentado pelo cofundador do LinkedIn, Reid Hoffman, o CEO da Google DeepMind, Demis Hassabis, compartilhou algumas notícias empolgantes sobre os planos do Google. Ele revelou que o Google está buscando fundir seus modelos de IA Gemini com os modelos de geração de vídeo Veo. Essa fusão visa aprimorar a compreensão do Gemini sobre o mundo físico, tornando-o mais apto a entender dinâmicas da vida real.
Hassabis enfatizou que, desde o início, o Gemini foi projetado para ser multimodal. "Sempre construímos o Gemini, nosso modelo de fundação, para ser multimodal desde o começo," ele explicou. A motivação por trás dessa abordagem? Uma visão para um assistente digital universal que possa realmente ajudar na vida cotidiana. "Um assistente que … realmente te ajuda no mundo real," Hassabis elaborou.
A indústria de IA está progredindo constantemente em direção ao que você poderia chamar de modelos "omni" — aqueles capazes de lidar e sintetizar vários tipos de mídia. As últimas iterações do Gemini do Google, por exemplo, podem produzir não apenas texto, mas também áudio e imagens. Enquanto isso, o modelo padrão do ChatGPT da OpenAI pode criar imagens na hora, incluindo arte encantadora no estilo Studio Ghibli. A Amazon não está muito atrás, com planos de lançar um modelo "any-to-any" ainda este ano.
Esses modelos omni exigem uma quantidade considerável de dados de treinamento — pense em imagens, vídeos, áudio e texto. Hassabis sugeriu que os dados de vídeo do Veo vêm principalmente do YouTube, um tesouro pertencente ao Google. "Basicamente, ao assistir a vídeos do YouTube — muitos vídeos do YouTube — [Veo 2] pode descobrir, sabe, a física do mundo," ele observou.
O Google havia mencionado anteriormente ao TechCrunch que seus modelos "podem ser" treinados com "algum" conteúdo do YouTube, em conformidade com acordos feitos com criadores do YouTube. Vale notar que, no último ano, o Google expandiu seus termos de serviço, em parte para acessar mais dados para treinar seus modelos de IA.
O Google integra IA autônoma e widgets com codificação de ambiente no Android
O Google anunciou um novo conjunto de recursos de IA sob a marca Gemini Intelligence durante o evento “Android Show: I/O Edition”, na terça-feira. Esses recursos incluem a capacidade da IA de realizar
O modelo de IA da Meta se destaca, mas a identidade de código aberto se desgasta
O cenário da IA de código aberto sempre ofereceu muitas opções. Durante anos, os desenvolvedores puderam acessar modelos como o Mistral, o Falcon e um número crescente de alternativas de código aberto
Pai processa o Google e culpa o chatbot Gemini pela ilusão fatal que levou à morte do filho
Jonathan Gavalas, de 36 anos, começou a usar o chatbot de IA Gemini, do Google, em agosto de 2025 para obter assistência em compras, ajuda na redação de textos e planejamento de viagens. Em 2 de outub
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.











