Google I/O 2025 apresenta aplicações práticas de mídia generativa

Na I/O 2025, nossa abordagem à IA generativa foi demonstrar seus recursos por meio de apresentações e aplicações práticas. Revelamos atualizações interessantes sobre nossos modelos mais recentes de geração de vídeo e imagem - Video 3 e Imagen 4 - e ampliamos o acesso ao Lyria 2. Também apresentamos o Flow, uma ferramenta de IA para produção de filmes que permite a criação perfeita de clipes cinematográficos, cenas e narrativas consistentes usando nossos modelos generativos mais avançados.
Também integramos essas ferramentas em nosso principal evento anual: 219 slides da palestra principal de I/O foram gerados por IA, 48% dos visuais da palestra foram produzidos com o Imagen e 80% dos vídeos incorporaram o Veo ou o Imagen de alguma forma. Veja a seguir uma análise detalhada de como utilizamos nossas próprias ferramentas de IA, incluindo nosso processo de criação de prompts, para dar vida ao I/O 2025:
Veo 2: projetando cartões de título de palestrantes com estilo
Quando Elizabeth Reid, nossa vice-presidente e diretora de pesquisa, subiu ao palco para compartilhar as principais atualizações da pesquisa, um vídeo curto foi reproduzido na tela mostrando Liz abrindo a mão para revelar um delicado guindaste de origami laranja, que girava e levitava logo acima de sua palma.
Usamos o recurso de conversão de imagem em vídeo do AI Studio e do Vertex AI Studio - com tecnologia Veo 2 - para produzir esse e outros vídeos de apresentação dos palestrantes. Coletamos fotos de nossos palestrantes, além de detalhes sobre seus interesses e hobbies para incorporar aos prompts. Aqui está o prompt que criamos para o cartão de título do cientista pesquisador Jason Baldridge:
Aqui está o resultado bruto do Veo 2, aprimorado com animações simples, e o que o público viu no palco:
Imagen 4 e Veo 3: Storyboarding e produção de filmes
Vários filmes exibidos no I/O utilizaram ferramentas de IA em sua produção. O filme de abertura levou os espectadores a uma viagem emocionante por uma cidade com tema de faroeste antes de fazer uma panorâmica para revelar balões coloridos com a inscrição "Welcome to I/O", dando início à apresentação.
A equipe de produção utilizou várias ferramentas de IA para criá-la. Começaram usando o Imagen 4 para gerar imagens para os prompts de vídeo. Eles também colaboraram com a equipe do Google DeepMind, que usou o Gemini para refinar os prompts, ajudando-os a encontrar a linguagem certa para alcançar os resultados desejados. Aqui está o prompt usado para a primeira cena:
Isso é o que eles geraram:
A equipe então incorporou essa imagem ao prompt do Veo 3, que incluía instruções como:
Com as imagens e os prompts refinados prontos, eles começaram a produzir o filme usando nossa mais recente tecnologia Veo 3 (disponível no plano Google AI Ultra!). Eles também usaram o Veo 3 para fazer ajustes em tempo real, adicionando tomadas aéreas, ângulos mais amplos e diferentes recursos visuais à medida que revisavam o resultado. Diferentemente da produção tradicional de filmes, em que muitas vezes é necessário refazer as cenas, a equipe pôde fazer iterações muito mais rapidamente. Não foi necessário codificar: enquanto alguns membros da equipe usaram a função Colab para edição baseada em código, muitos outros confiaram na solicitação de texto para vídeo, descrevendo edições e solicitações em linguagem natural.
Aqui está o prompt usado para criar uma das cenas finais do filme:
Lyria RealTime: Jamming com Toro y Moi em tempo real
Durante o pré-show do I/O, o artista Toro y Moi usou o Lyria RealTime em um set musical ao vivo para demonstrar os recursos mais recentes do modelo. O Lyria RealTime é o nosso modelo interativo de geração de música que permite criar, controlar e executar música generativa em tempo real. Você pode misturar e transformar instrumentos, sons, gêneros e muito mais. "Esta será uma apresentação e um experimento", explicou ele antes de começar. "Tudo o que estou tocando é totalmente improvisado - estou improvisando com o computador, e o computador está improvisando comigo."
Nas semanas que antecederam a apresentação, a equipe forneceu ao Toro y Moi um protótipo do Lyria RealTime para que ele pudesse testar e refinar suas instruções. Isso o ajudou a desenvolver um conceito criativo e prompts para usar durante o show. Ele criou 16 prompts de som - incluindo "chaotic conga player" e "pitch shift U.K. jungle drums" - e os atribuiu a botões em um controlador MIDI físico.
A execução do Lyria RealTime localmente por meio de um controlador MIDI permitiu que o Toro y Moi usasse o modelo no palco e deu ao público uma visão ao vivo da interface em ação.
Durante a apresentação, um aplicativo criado com a API do Lyria RealTime e executado no controlador MIDI foi exibido atrás de Toro y Moi. O público viu as opções do aplicativo para criar e controlar um fluxo contínuo de música - junto com os comandos que ele usou - à medida que colocava camadas de teclados e embelezamentos vocais.
Experimente você mesmo usando a API Lyria RealTime no AI Studio.
AI Studio: Criação de brindes gerados por IA
Usamos vários modelos Gemini no Google AI Studio - nossa interface gratuita para testar modelos rapidamente e fazer experiências com prompts - para criar a camiseta do I/O deste ano com um novo logotipo personalizado. Como a etiqueta da camiseta descreve, a solicitação criativa foi: "O logotipo do Google I/O derretendo no chão, cores do arco-íris, ilustração, iluminação de estúdio". Veja como criamos o logotipo:
Primeiro, a equipe selecionou o Gemini 2.5 Pro no AI Studio e definiu seu objetivo com um prompt detalhado de instruções do sistema.
Depois de definir essas diretrizes, eles inseriram o prompt criativo mencionado anteriormente. Em seguida, o Gemini 2.5 Pro gerou uma lista de requisitos e ideias de estilo para os resultados de imagem desejados. Por exemplo: "Formas centrais: As formas geométricas fundamentais das três formas originais (o retângulo geral, a barra/retângulo fino e o cilindro) ainda devem ser claramente reconhecíveis e visualmente distintas, mesmo com o efeito de fusão aplicado em suas laterais. Não distorça a estrutura central além do efeito de tinta derretida."
Depois que a equipe recebeu essas instruções por escrito, eles mudaram para o nosso modelo de trabalho, o Gemini 2.0 Flash com geração de imagens, para produzir uma variedade de opções de imagens com base na lista gerada.
Depois de muita experimentação, eles selecionaram vários designs finais, inclusive este.
É importante observar que a equipe também tentou ignorar a reescrita inicial do prompt com o Gemini 2.5 Pro e passou diretamente para o Gemini 2.0 Flash no AI Studio. Embora tenham se aproximado do resultado desejado, o uso da reescrita do 2.5 Pro sempre proporcionou melhores resultados com mais detalhes criativos. O resultado? Algumas camisetas muito legais!
Pronto para uma recapitulação? Fique por dentro dos maiores anúncios do I/O 2025 aqui e teste seus conhecimentos com nosso teste de I/O.
Artigo relacionado
A Kakao Mobility apresenta o plano de ação para a direção autônoma de nível 4 com IA física
A Kakao Mobility planeja desenvolver tecnologias de direção autônoma de nível 4 internamente, como parte de sua estratégia de IA física.Na conferência World IT Show 2026, realizada no COEX, em Seul,
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas
Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden
Recomendações de tópicos especiais relacionados
Comentários (1)
Veo 3 et Imagen 4 semblent impressionnants, mais j'espère que ces avancées en IA générative ne se contentent pas de faire des jolies images. Qu'en est-il de l'impact environnemental de l'entraînement de ces modèles? Les présentations sont cool, mais je veux aussi voir une vraie réflexion éthique derrière. 😅

Na I/O 2025, nossa abordagem à IA generativa foi demonstrar seus recursos por meio de apresentações e aplicações práticas. Revelamos atualizações interessantes sobre nossos modelos mais recentes de geração de vídeo e imagem - Video 3 e Imagen 4 - e ampliamos o acesso ao Lyria 2. Também apresentamos o Flow, uma ferramenta de IA para produção de filmes que permite a criação perfeita de clipes cinematográficos, cenas e narrativas consistentes usando nossos modelos generativos mais avançados.
Também integramos essas ferramentas em nosso principal evento anual: 219 slides da palestra principal de I/O foram gerados por IA, 48% dos visuais da palestra foram produzidos com o Imagen e 80% dos vídeos incorporaram o Veo ou o Imagen de alguma forma. Veja a seguir uma análise detalhada de como utilizamos nossas próprias ferramentas de IA, incluindo nosso processo de criação de prompts, para dar vida ao I/O 2025:
Veo 2: projetando cartões de título de palestrantes com estilo
Quando Elizabeth Reid, nossa vice-presidente e diretora de pesquisa, subiu ao palco para compartilhar as principais atualizações da pesquisa, um vídeo curto foi reproduzido na tela mostrando Liz abrindo a mão para revelar um delicado guindaste de origami laranja, que girava e levitava logo acima de sua palma.
Usamos o recurso de conversão de imagem em vídeo do AI Studio e do Vertex AI Studio - com tecnologia Veo 2 - para produzir esse e outros vídeos de apresentação dos palestrantes. Coletamos fotos de nossos palestrantes, além de detalhes sobre seus interesses e hobbies para incorporar aos prompts. Aqui está o prompt que criamos para o cartão de título do cientista pesquisador Jason Baldridge:
Aqui está o resultado bruto do Veo 2, aprimorado com animações simples, e o que o público viu no palco:
Imagen 4 e Veo 3: Storyboarding e produção de filmes
Vários filmes exibidos no I/O utilizaram ferramentas de IA em sua produção. O filme de abertura levou os espectadores a uma viagem emocionante por uma cidade com tema de faroeste antes de fazer uma panorâmica para revelar balões coloridos com a inscrição "Welcome to I/O", dando início à apresentação.
A equipe de produção utilizou várias ferramentas de IA para criá-la. Começaram usando o Imagen 4 para gerar imagens para os prompts de vídeo. Eles também colaboraram com a equipe do Google DeepMind, que usou o Gemini para refinar os prompts, ajudando-os a encontrar a linguagem certa para alcançar os resultados desejados. Aqui está o prompt usado para a primeira cena:
Isso é o que eles geraram:
A equipe então incorporou essa imagem ao prompt do Veo 3, que incluía instruções como:
Com as imagens e os prompts refinados prontos, eles começaram a produzir o filme usando nossa mais recente tecnologia Veo 3 (disponível no plano Google AI Ultra!). Eles também usaram o Veo 3 para fazer ajustes em tempo real, adicionando tomadas aéreas, ângulos mais amplos e diferentes recursos visuais à medida que revisavam o resultado. Diferentemente da produção tradicional de filmes, em que muitas vezes é necessário refazer as cenas, a equipe pôde fazer iterações muito mais rapidamente. Não foi necessário codificar: enquanto alguns membros da equipe usaram a função Colab para edição baseada em código, muitos outros confiaram na solicitação de texto para vídeo, descrevendo edições e solicitações em linguagem natural.
Aqui está o prompt usado para criar uma das cenas finais do filme:
Lyria RealTime: Jamming com Toro y Moi em tempo real
Durante o pré-show do I/O, o artista Toro y Moi usou o Lyria RealTime em um set musical ao vivo para demonstrar os recursos mais recentes do modelo. O Lyria RealTime é o nosso modelo interativo de geração de música que permite criar, controlar e executar música generativa em tempo real. Você pode misturar e transformar instrumentos, sons, gêneros e muito mais. "Esta será uma apresentação e um experimento", explicou ele antes de começar. "Tudo o que estou tocando é totalmente improvisado - estou improvisando com o computador, e o computador está improvisando comigo."
Nas semanas que antecederam a apresentação, a equipe forneceu ao Toro y Moi um protótipo do Lyria RealTime para que ele pudesse testar e refinar suas instruções. Isso o ajudou a desenvolver um conceito criativo e prompts para usar durante o show. Ele criou 16 prompts de som - incluindo "chaotic conga player" e "pitch shift U.K. jungle drums" - e os atribuiu a botões em um controlador MIDI físico.
A execução do Lyria RealTime localmente por meio de um controlador MIDI permitiu que o Toro y Moi usasse o modelo no palco e deu ao público uma visão ao vivo da interface em ação.
Durante a apresentação, um aplicativo criado com a API do Lyria RealTime e executado no controlador MIDI foi exibido atrás de Toro y Moi. O público viu as opções do aplicativo para criar e controlar um fluxo contínuo de música - junto com os comandos que ele usou - à medida que colocava camadas de teclados e embelezamentos vocais.
Experimente você mesmo usando a API Lyria RealTime no AI Studio.
AI Studio: Criação de brindes gerados por IA
Usamos vários modelos Gemini no Google AI Studio - nossa interface gratuita para testar modelos rapidamente e fazer experiências com prompts - para criar a camiseta do I/O deste ano com um novo logotipo personalizado. Como a etiqueta da camiseta descreve, a solicitação criativa foi: "O logotipo do Google I/O derretendo no chão, cores do arco-íris, ilustração, iluminação de estúdio". Veja como criamos o logotipo:
Primeiro, a equipe selecionou o Gemini 2.5 Pro no AI Studio e definiu seu objetivo com um prompt detalhado de instruções do sistema.
Depois de definir essas diretrizes, eles inseriram o prompt criativo mencionado anteriormente. Em seguida, o Gemini 2.5 Pro gerou uma lista de requisitos e ideias de estilo para os resultados de imagem desejados. Por exemplo: "Formas centrais: As formas geométricas fundamentais das três formas originais (o retângulo geral, a barra/retângulo fino e o cilindro) ainda devem ser claramente reconhecíveis e visualmente distintas, mesmo com o efeito de fusão aplicado em suas laterais. Não distorça a estrutura central além do efeito de tinta derretida."
Depois que a equipe recebeu essas instruções por escrito, eles mudaram para o nosso modelo de trabalho, o Gemini 2.0 Flash com geração de imagens, para produzir uma variedade de opções de imagens com base na lista gerada.
Depois de muita experimentação, eles selecionaram vários designs finais, inclusive este.
É importante observar que a equipe também tentou ignorar a reescrita inicial do prompt com o Gemini 2.5 Pro e passou diretamente para o Gemini 2.0 Flash no AI Studio. Embora tenham se aproximado do resultado desejado, o uso da reescrita do 2.5 Pro sempre proporcionou melhores resultados com mais detalhes criativos. O resultado? Algumas camisetas muito legais!
Pronto para uma recapitulação? Fique por dentro dos maiores anúncios do I/O 2025 aqui e teste seus conhecimentos com nosso teste de I/O.
Barry Diller: A confiança em Sam Altman é irrelevante à medida que a IA geral se aproxima
Barry Diller, o bilionário magnata da mídia, não acredita que Sam Altman, CEO da OpenAI, seja indigno de confiança, apesar de relatos recentes sugerirem o contrário. Em discurso na conferência “Future
O YouTube amplia a detecção de deepfakes por IA para políticos, autoridades governamentais e jornalistas
Na terça-feira, o YouTube anunciou que está expandindo sua tecnologia de detecção de deepfakes para um grupo seleto de autoridades governamentais, candidatos políticos e jornalistas. A ferramenta iden
Veo 3 et Imagen 4 semblent impressionnants, mais j'espère que ces avancées en IA générative ne se contentent pas de faire des jolies images. Qu'en est-il de l'impact environnemental de l'entraînement de ces modèles? Les présentations sont cool, mais je veux aussi voir une vraie réflexion éthique derrière. 😅





Lar






