Gemini Omni, de Google, genera vídeos a partir de imágenes, audio y texto
Hace tres años, Google presentó Gemini con el objetivo de desarrollar un modelo de lenguaje grande multimodal: una red neuronal unificada entrenada con texto, imágenes, audio y vídeo, capaz de generar contenido en todos estos formatos.
En su conferencia de desarrolladores Google I/O celebrada hoy, la empresa ha dado un paso adelante hacia esta visión con Gemini Omni, una nueva familia de modelos multimodales. El director ejecutivo de Google, Sundar Pichai, afirmó que Omni permitirá a los usuarios «crear cualquier cosa a partir de cualquier entrada».
El enfoque inicial de Omni es el vídeo. Los usuarios ahora pueden combinar imágenes, audio, vídeo y texto. En lugar de limitarse a unir estos elementos, Omni razona de forma inteligente a través de todas las modalidades para producir un resultado coherente. Esto da como resultado vídeos de alta calidad que demuestran una comprensión de la física, la cultura, la historia y la ciencia.
Omni también permite a los usuarios editar fotos mediante sencillos comandos de texto, lo que elimina la necesidad de software complejo, de forma similar a la herramienta Nano Banana de Google.
Google ya ofrece Veo, un modelo de vídeo específico que transforma texto e imágenes en vídeos y permite dirigir y personalizar avatares. Sin embargo, Nicole Brichtova, directora de gestión de productos de Google DeepMind, destacó que el lanzamiento de hoy representa algo más que una simple actualización de Veo: «Es el siguiente paso en la fusión de la inteligencia de Gemini con las capacidades de renderización de nuestros modelos multimedia».
Durante una rueda de prensa celebrada el lunes, el director tecnológico de DeepMind, Koray Kavukcuoglu, ofreció un ejemplo: cuando se le pidió «una explicación en claymation sobre el plegamiento de proteínas», Omni generó rápidamente un vídeo stop-motion con una voz en off que explicaba: «Las proteínas comienzan como cadenas de aminoácidos. Se pliegan en estructuras como hélices alfa y secciones planas llamadas láminas beta, formando finalmente una forma tridimensional precisa».
La visión a largo plazo para Omni es más amplia y abarca capacidades como la generación de imágenes a partir de audio o de audio a partir de vídeo.
«Cuando anunciamos Gemini por primera vez, era nuestro primer modelo de IA multimodal nativo», señaló Pichai durante la presentación. «Sabíamos que entrenarlo con una combinación de texto, código, audio, imágenes y vídeo conduciría a una comprensión más profunda del mundo. Con los modelos del mundo, la IA está evolucionando desde la predicción de texto hasta la simulación de la realidad. Gemini Omni es el siguiente paso en esa dirección».
Como parte de este lanzamiento, los usuarios también podrán crear vídeos con sus propios avatares digitales, una función popularizada por la aplicación Sora de OpenAI, ahora descatalogada, junto con Cameos. Para evitar los deepfakes, los usuarios deben completar un proceso de incorporación específico, que implica grabarse a sí mismos mientras recitan una serie de números, según Brichtova. A continuación, el avatar se guarda para su uso futuro.
Además, todos los vídeos creados con Omni incluirán la marca de agua digital SynthID de Google, lo que permitirá a los usuarios verificar si el contenido se ha generado utilizando productos de Gemini.
El primer modelo de la familia es Gemini Omni Flash, que se lanza hoy en la aplicación Gemini, YouTube Shorts y el estudio creativo de IA Flow. Flash puede renderizar vídeos de 10 segundos. Brichtova aclaró que esta duración no es una limitación del modelo, sino una decisión estratégica para ampliar la accesibilidad, anticipando que la mayoría de los usuarios prefieren actualmente clips más cortos. Está previsto que en un futuro próximo se admita la creación de vídeos más largos.
Google parece estar posicionando Omni Flash principalmente como una herramienta para el consumidor. Durante una llamada con TechCrunch, Brichtova y el ingeniero de investigación de DeepMind, Gabe Barth-Maron, describieron los casos de uso de los avatares como personales, como crear un vídeo de uno mismo ganando un premio o visitando la Luna, o eliminar a un transeúnte del fondo de un vídeo de vacaciones.
Barth-Maron lo resumió de forma sucinta: «Son como memes personalizados».
«Sin duda, nos hemos centrado en que sea fácil de usar para los consumidores», dijo Brichtova. «No hay muchos modelos de vídeo que hayan logrado dar el salto al mercado de consumo general, así que este es nuestro intento de hacerlo».
Esta facilidad de uso viene con una salvedad: Brichtova y Barth-Maron señalaron que las instrucciones de edición deben ser muy específicas. De lo contrario, Omni podría editar en exceso o alterar involuntariamente elementos que el usuario pretendía conservar, un reto al que también se enfrentan los usuarios de Nano Banana.

Créditos de las imágenes:Google
A pesar de su enfoque inmediato en el consumidor, el potencial de Omni para aplicaciones empresariales y creativas es evidente. Google pondrá Omni a disposición a través de una API en las próximas semanas. Se espera que la herramienta de generación de avatares —ya disponible en Shorts— gane popularidad entre los creadores de contenido. En un sentido más amplio, un flujo de trabajo multimodal de principio a fin podría revolucionar la publicidad y la producción cinematográfica.
La startup Luma AI está desarrollando una herramienta similar basada en su propio modelo «unificado», capaz de generar una campaña publicitaria completa a partir de un briefing y una imagen del producto.
«De hecho, estamos muy orgullosos de las capacidades de generación de texto del modelo, que son muy útiles para aplicaciones como la publicidad», afirmó Brichtova. «Si necesitas una colocación de producto o incluso solo un eslogan, la precisión es crucial... Sin duda, prevemos que los cineastas y otros creadores también adoptarán este modelo».
Los casos de uso más profesionales podrían verse mejor atendidos por el próximo modelo Omni Pro, diseñado para ofrecer un rendimiento superior en todas las tareas de Omni. Google aún no ha anunciado una fecha de lanzamiento para Pro, pero Brichtova indicó que se lanzará cuando «logremos un salto significativo en capacidad más allá de Flash».
Artículo relacionado
Google Fotos da vida al emblemático armario de «Clueless» gracias a la inteligencia artificial
Google Fotos anunció el miércoles una nueva función basada en la inteligencia artificial que pronto convertirá las fotos de tu ropa en un armario digital, lo que te permitirá crear nuevas combinacione
Google IO 2026 presenta la interacción por voz con la bandeja de entrada de Gmail
Google sigue integrando la IA en tu bandeja de entrada. En la conferencia de desarrolladores IO 2026 celebrada el martes, la empresa amplió su función «Bandeja de entrada con IA» de Gmail con IA conve
Google lanza Gemini en Chrome en la India
El miércoles, Google anunció que ampliará la integración de Gemini en Chrome a nuevas regiones, entre las que se incluyen la India, Canadá y Nueva Zelanda. Esta actualización permite a los usuarios de
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Hace tres años, Google presentó Gemini con el objetivo de desarrollar un modelo de lenguaje grande multimodal: una red neuronal unificada entrenada con texto, imágenes, audio y vídeo, capaz de generar contenido en todos estos formatos.
En su conferencia de desarrolladores Google I/O celebrada hoy, la empresa ha dado un paso adelante hacia esta visión con Gemini Omni, una nueva familia de modelos multimodales. El director ejecutivo de Google, Sundar Pichai, afirmó que Omni permitirá a los usuarios «crear cualquier cosa a partir de cualquier entrada».
El enfoque inicial de Omni es el vídeo. Los usuarios ahora pueden combinar imágenes, audio, vídeo y texto. En lugar de limitarse a unir estos elementos, Omni razona de forma inteligente a través de todas las modalidades para producir un resultado coherente. Esto da como resultado vídeos de alta calidad que demuestran una comprensión de la física, la cultura, la historia y la ciencia.
Omni también permite a los usuarios editar fotos mediante sencillos comandos de texto, lo que elimina la necesidad de software complejo, de forma similar a la herramienta Nano Banana de Google.
Google ya ofrece Veo, un modelo de vídeo específico que transforma texto e imágenes en vídeos y permite dirigir y personalizar avatares. Sin embargo, Nicole Brichtova, directora de gestión de productos de Google DeepMind, destacó que el lanzamiento de hoy representa algo más que una simple actualización de Veo: «Es el siguiente paso en la fusión de la inteligencia de Gemini con las capacidades de renderización de nuestros modelos multimedia».
Durante una rueda de prensa celebrada el lunes, el director tecnológico de DeepMind, Koray Kavukcuoglu, ofreció un ejemplo: cuando se le pidió «una explicación en claymation sobre el plegamiento de proteínas», Omni generó rápidamente un vídeo stop-motion con una voz en off que explicaba: «Las proteínas comienzan como cadenas de aminoácidos. Se pliegan en estructuras como hélices alfa y secciones planas llamadas láminas beta, formando finalmente una forma tridimensional precisa».
La visión a largo plazo para Omni es más amplia y abarca capacidades como la generación de imágenes a partir de audio o de audio a partir de vídeo.
«Cuando anunciamos Gemini por primera vez, era nuestro primer modelo de IA multimodal nativo», señaló Pichai durante la presentación. «Sabíamos que entrenarlo con una combinación de texto, código, audio, imágenes y vídeo conduciría a una comprensión más profunda del mundo. Con los modelos del mundo, la IA está evolucionando desde la predicción de texto hasta la simulación de la realidad. Gemini Omni es el siguiente paso en esa dirección».
Como parte de este lanzamiento, los usuarios también podrán crear vídeos con sus propios avatares digitales, una función popularizada por la aplicación Sora de OpenAI, ahora descatalogada, junto con Cameos. Para evitar los deepfakes, los usuarios deben completar un proceso de incorporación específico, que implica grabarse a sí mismos mientras recitan una serie de números, según Brichtova. A continuación, el avatar se guarda para su uso futuro.
Además, todos los vídeos creados con Omni incluirán la marca de agua digital SynthID de Google, lo que permitirá a los usuarios verificar si el contenido se ha generado utilizando productos de Gemini.
El primer modelo de la familia es Gemini Omni Flash, que se lanza hoy en la aplicación Gemini, YouTube Shorts y el estudio creativo de IA Flow. Flash puede renderizar vídeos de 10 segundos. Brichtova aclaró que esta duración no es una limitación del modelo, sino una decisión estratégica para ampliar la accesibilidad, anticipando que la mayoría de los usuarios prefieren actualmente clips más cortos. Está previsto que en un futuro próximo se admita la creación de vídeos más largos.
Google parece estar posicionando Omni Flash principalmente como una herramienta para el consumidor. Durante una llamada con TechCrunch, Brichtova y el ingeniero de investigación de DeepMind, Gabe Barth-Maron, describieron los casos de uso de los avatares como personales, como crear un vídeo de uno mismo ganando un premio o visitando la Luna, o eliminar a un transeúnte del fondo de un vídeo de vacaciones.
Barth-Maron lo resumió de forma sucinta: «Son como memes personalizados».
«Sin duda, nos hemos centrado en que sea fácil de usar para los consumidores», dijo Brichtova. «No hay muchos modelos de vídeo que hayan logrado dar el salto al mercado de consumo general, así que este es nuestro intento de hacerlo».
Esta facilidad de uso viene con una salvedad: Brichtova y Barth-Maron señalaron que las instrucciones de edición deben ser muy específicas. De lo contrario, Omni podría editar en exceso o alterar involuntariamente elementos que el usuario pretendía conservar, un reto al que también se enfrentan los usuarios de Nano Banana.

Créditos de las imágenes:Google
A pesar de su enfoque inmediato en el consumidor, el potencial de Omni para aplicaciones empresariales y creativas es evidente. Google pondrá Omni a disposición a través de una API en las próximas semanas. Se espera que la herramienta de generación de avatares —ya disponible en Shorts— gane popularidad entre los creadores de contenido. En un sentido más amplio, un flujo de trabajo multimodal de principio a fin podría revolucionar la publicidad y la producción cinematográfica.
La startup Luma AI está desarrollando una herramienta similar basada en su propio modelo «unificado», capaz de generar una campaña publicitaria completa a partir de un briefing y una imagen del producto.
«De hecho, estamos muy orgullosos de las capacidades de generación de texto del modelo, que son muy útiles para aplicaciones como la publicidad», afirmó Brichtova. «Si necesitas una colocación de producto o incluso solo un eslogan, la precisión es crucial... Sin duda, prevemos que los cineastas y otros creadores también adoptarán este modelo».
Los casos de uso más profesionales podrían verse mejor atendidos por el próximo modelo Omni Pro, diseñado para ofrecer un rendimiento superior en todas las tareas de Omni. Google aún no ha anunciado una fecha de lanzamiento para Pro, pero Brichtova indicó que se lanzará cuando «logremos un salto significativo en capacidad más allá de Flash».
Google Fotos da vida al emblemático armario de «Clueless» gracias a la inteligencia artificial
Google Fotos anunció el miércoles una nueva función basada en la inteligencia artificial que pronto convertirá las fotos de tu ropa en un armario digital, lo que te permitirá crear nuevas combinacione
Google IO 2026 presenta la interacción por voz con la bandeja de entrada de Gmail
Google sigue integrando la IA en tu bandeja de entrada. En la conferencia de desarrolladores IO 2026 celebrada el martes, la empresa amplió su función «Bandeja de entrada con IA» de Gmail con IA conve
Google lanza Gemini en Chrome en la India
El miércoles, Google anunció que ampliará la integración de Gemini en Chrome a nuevas regiones, entre las que se incluyen la India, Canadá y Nueva Zelanda. Esta actualización permite a los usuarios de





Hogar






