opción
Hogar
Noticias
Gemini Omni, de Google, genera vídeos a partir de imágenes, audio y texto

Gemini Omni, de Google, genera vídeos a partir de imágenes, audio y texto

26 de mayo de 2026
71

Hace tres años, Google presentó Gemini con el objetivo de desarrollar un modelo de lenguaje grande multimodal: una red neuronal unificada entrenada con texto, imágenes, audio y vídeo, capaz de generar contenido en todos estos formatos.

En su conferencia de desarrolladores Google I/O celebrada hoy, la empresa ha dado un paso adelante hacia esta visión con Gemini Omni, una nueva familia de modelos multimodales. El director ejecutivo de Google, Sundar Pichai, afirmó que Omni permitirá a los usuarios «crear cualquier cosa a partir de cualquier entrada».

El enfoque inicial de Omni es el vídeo. Los usuarios ahora pueden combinar imágenes, audio, vídeo y texto. En lugar de limitarse a unir estos elementos, Omni razona de forma inteligente a través de todas las modalidades para producir un resultado coherente. Esto da como resultado vídeos de alta calidad que demuestran una comprensión de la física, la cultura, la historia y la ciencia.

Omni también permite a los usuarios editar fotos mediante sencillos comandos de texto, lo que elimina la necesidad de software complejo, de forma similar a la herramienta Nano Banana de Google.

Google ya ofrece Veo, un modelo de vídeo específico que transforma texto e imágenes en vídeos y permite dirigir y personalizar avatares. Sin embargo, Nicole Brichtova, directora de gestión de productos de Google DeepMind, destacó que el lanzamiento de hoy representa algo más que una simple actualización de Veo: «Es el siguiente paso en la fusión de la inteligencia de Gemini con las capacidades de renderización de nuestros modelos multimedia».

Durante una rueda de prensa celebrada el lunes, el director tecnológico de DeepMind, Koray Kavukcuoglu, ofreció un ejemplo: cuando se le pidió «una explicación en claymation sobre el plegamiento de proteínas», Omni generó rápidamente un vídeo stop-motion con una voz en off que explicaba: «Las proteínas comienzan como cadenas de aminoácidos. Se pliegan en estructuras como hélices alfa y secciones planas llamadas láminas beta, formando finalmente una forma tridimensional precisa».

La visión a largo plazo para Omni es más amplia y abarca capacidades como la generación de imágenes a partir de audio o de audio a partir de vídeo.

«Cuando anunciamos Gemini por primera vez, era nuestro primer modelo de IA multimodal nativo», señaló Pichai durante la presentación. «Sabíamos que entrenarlo con una combinación de texto, código, audio, imágenes y vídeo conduciría a una comprensión más profunda del mundo. Con los modelos del mundo, la IA está evolucionando desde la predicción de texto hasta la simulación de la realidad. Gemini Omni es el siguiente paso en esa dirección».

Como parte de este lanzamiento, los usuarios también podrán crear vídeos con sus propios avatares digitales, una función popularizada por la aplicación Sora de OpenAI, ahora descatalogada, junto con Cameos. Para evitar los deepfakes, los usuarios deben completar un proceso de incorporación específico, que implica grabarse a sí mismos mientras recitan una serie de números, según Brichtova. A continuación, el avatar se guarda para su uso futuro.

Además, todos los vídeos creados con Omni incluirán la marca de agua digital SynthID de Google, lo que permitirá a los usuarios verificar si el contenido se ha generado utilizando productos de Gemini.

El primer modelo de la familia es Gemini Omni Flash, que se lanza hoy en la aplicación Gemini, YouTube Shorts y el estudio creativo de IA Flow. Flash puede renderizar vídeos de 10 segundos. Brichtova aclaró que esta duración no es una limitación del modelo, sino una decisión estratégica para ampliar la accesibilidad, anticipando que la mayoría de los usuarios prefieren actualmente clips más cortos. Está previsto que en un futuro próximo se admita la creación de vídeos más largos.

Google parece estar posicionando Omni Flash principalmente como una herramienta para el consumidor. Durante una llamada con TechCrunch, Brichtova y el ingeniero de investigación de DeepMind, Gabe Barth-Maron, describieron los casos de uso de los avatares como personales, como crear un vídeo de uno mismo ganando un premio o visitando la Luna, o eliminar a un transeúnte del fondo de un vídeo de vacaciones.

Barth-Maron lo resumió de forma sucinta: «Son como memes personalizados».

«Sin duda, nos hemos centrado en que sea fácil de usar para los consumidores», dijo Brichtova. «No hay muchos modelos de vídeo que hayan logrado dar el salto al mercado de consumo general, así que este es nuestro intento de hacerlo».

Esta facilidad de uso viene con una salvedad: Brichtova y Barth-Maron señalaron que las instrucciones de edición deben ser muy específicas. De lo contrario, Omni podría editar en exceso o alterar involuntariamente elementos que el usuario pretendía conservar, un reto al que también se enfrentan los usuarios de Nano Banana.

Gemini Omni, de Google, convierte imágenes, audio y texto en vídeo... y eso es solo el principio

Créditos de las imágenes:Google

A pesar de su enfoque inmediato en el consumidor, el potencial de Omni para aplicaciones empresariales y creativas es evidente. Google pondrá Omni a disposición a través de una API en las próximas semanas. Se espera que la herramienta de generación de avatares —ya disponible en Shorts— gane popularidad entre los creadores de contenido. En un sentido más amplio, un flujo de trabajo multimodal de principio a fin podría revolucionar la publicidad y la producción cinematográfica.

La startup Luma AI está desarrollando una herramienta similar basada en su propio modelo «unificado», capaz de generar una campaña publicitaria completa a partir de un briefing y una imagen del producto.

«De hecho, estamos muy orgullosos de las capacidades de generación de texto del modelo, que son muy útiles para aplicaciones como la publicidad», afirmó Brichtova. «Si necesitas una colocación de producto o incluso solo un eslogan, la precisión es crucial... Sin duda, prevemos que los cineastas y otros creadores también adoptarán este modelo».

Los casos de uso más profesionales podrían verse mejor atendidos por el próximo modelo Omni Pro, diseñado para ofrecer un rendimiento superior en todas las tareas de Omni. Google aún no ha anunciado una fecha de lanzamiento para Pro, pero Brichtova indicó que se lanzará cuando «logremos un salto significativo en capacidad más allá de Flash».

Artículo relacionado
Google Fotos da vida al emblemático armario de «Clueless» gracias a la inteligencia artificial Google Fotos da vida al emblemático armario de «Clueless» gracias a la inteligencia artificial Google Fotos anunció el miércoles una nueva función basada en la inteligencia artificial que pronto convertirá las fotos de tu ropa en un armario digital, lo que te permitirá crear nuevas combinacione
Google IO 2026 presenta la interacción por voz con la bandeja de entrada de Gmail Google IO 2026 presenta la interacción por voz con la bandeja de entrada de Gmail Google sigue integrando la IA en tu bandeja de entrada. En la conferencia de desarrolladores IO 2026 celebrada el martes, la empresa amplió su función «Bandeja de entrada con IA» de Gmail con IA conve
Google lanza Gemini en Chrome en la India Google lanza Gemini en Chrome en la India El miércoles, Google anunció que ampliará la integración de Gemini en Chrome a nuevas regiones, entre las que se incluyen la India, Canadá y Nueva Zelanda. Esta actualización permite a los usuarios de
Recomendaciones de temas especiales relacionados
Creación de vídeos Las mejores plataformas de IA para convertir texto en vídeo, destinadas a la redacción de guiones y la narración visual
Las mejores plataformas de IA para convertir texto en vídeo, destinadas a la redacción de guiones y la narración visual

Las mejores plataformas de IA para convertir texto en vídeo de 2026: las herramientas mejor valoradas para la redacción de guiones y la narración visual. Descubre soluciones potentes y revolucionarias para transformar tu texto en vídeos atractivos. Compara las opciones gratuitas con las de pago gracias a nuestras clasificaciones, que se actualizan semanalmente, y a nuestras pruebas en condiciones reales. Encuentra la plataforma perfecta para potenciar tu creatividad y productividad. Explora la selección cuidada de XIX.AI.

10 herramientas
xix.ai
chatbot Orquestadores de Agentes Multiservidores AI: Diseño de Flujos de Trabajo Automatizados y Complejos a través del Lenguaje Natural
Orquestadores de Agentes Multiservidores AI: Diseño de Flujos de Trabajo Automatizados y Complejos a través del Lenguaje Natural

2026 Últimas novedades: Descubra los mejores herramientas de inteligencia artificial para diseñar flujos de trabajo automatizados complejos a través del lenguaje natural. Nuestra lista seleccionada incluye las plataformas más reconocidas y potentes para una automatización de tareas sin problemas y una gestión inteligente de procesos. Compare opciones gratuitas y pagadas con información basada en casos reales. Despliegue todo su potencial con las clasificaciones actualizadas semanalmente por expertos de XIX.AI.

10 herramientas
xix.ai
Edición de imágenes Mejor software de reducción de ruido por IA: Elimina las imperfecciones y artefactos en fotografías nocturnas con poca luz
Mejor software de reducción de ruido por IA: Elimina las imperfecciones y artefactos en fotografías nocturnas con poca luz

Descubra los mejores softwares de reducción de ruido por IA para la fotografía nocturna en condiciones de poca luz en 2026. Nuestra lista, seleccionada cuidadosamente y evaluada por expertos, compara herramientas gratuitas con aquellas pagadas, e incluye pruebas reales y clasificaciones actualizadas semanalmente. Elimine fácilmente las imperfecciones y los artefactos en sus imágenes. Despliegue todo el potencial de la IA en XIX.AI.

10 herramientas
xix.ai
chatbot Los mejores generadores personalizados de novias con IA: diseña personalidades, aficiones e historias personales únicas
Los mejores generadores personalizados de novias con IA: diseña personalidades, aficiones e historias personales únicas

Descubre los mejores generadores personalizados de novias con IA de 2026 en XIX.AI. Explora nuestra lista seleccionada y mejor valorada para diseñar personalidades únicas, aficiones e historias de fondo detalladas. Compara las opciones gratuitas con las de pago gracias a opiniones reales. Consigue hoy mismo a tu compañera creativa perfecta.

10 herramientas
xix.ai
Productividad Diseñadores de arquitecturas de IA: Crea arquitecturas de sistemas escalables utilizando lenguaje natural
Diseñadores de arquitecturas de IA: Crea arquitecturas de sistemas escalables utilizando lenguaje natural

Descubre las mejores herramientas de diseño de arquitecturas de IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y mejor valorada, incluye soluciones potentes y revolucionarias para crear arquitecturas de sistemas escalables mediante el lenguaje natural. Compara las opciones gratuitas con las de pago con información basada en casos reales. Aprovecha tu ventaja en IA y optimiza el desarrollo hoy mismo.

10 herramientas
xix.ai
Creación de cómics Creadores de Perfiles de Personajes AI: Genera historias detalladas y referencias visuales para los personajes principales de los mangas.
Creadores de Perfiles de Personajes AI: Genera historias detalladas y referencias visuales para los personajes principales de los mangas.

2026: Los mejores creadores de perfiles de personajes AI: Descubra herramientas altamente valoradas para generar historias detalladas y referencias visuales para sus personajes principales en manga. Nuestra lista, actualizada semanalmente, compara opciones gratuitas y pagas basándose en pruebas reales. Encuentre soluciones poderosas que revolucionarán su proceso creativo y le ayudarán a crear personajes convincentes de manera más eficiente. Explore las clasificaciones en XIX.AI y descubra hoy mismo al aliado perfecto para su narrativa.

10 herramientas
xix.ai
comentario (0)
0/500
OR