Hogar
El CEO de DeepMind, Demis Hassabis, anuncia la integración futura de los modelos Gemini y VEO AI de Google

En un episodio reciente del podcast Possible, copresentado por el cofundador de LinkedIn, Reid Hoffman, el CEO de Google DeepMind, Demis Hassabis, compartió noticias emocionantes sobre los planes de Google. Reveló que Google planea fusionar sus modelos de IA Gemini con los modelos de generación de video Veo. Esta fusión busca mejorar la comprensión de Gemini del mundo físico, haciéndolo más hábil para entender las dinámicas de la vida real.
Hassabis destacó que desde el inicio, Gemini fue diseñado para ser multimodal. "Siempre hemos construido Gemini, nuestro modelo fundacional, para ser multimodal desde el principio," explicó. ¿La motivación detrás de este enfoque? Una visión para un asistente digital universal que realmente pueda ayudar en la vida cotidiana. "Un asistente que … realmente te ayude en el mundo real," elaboró Hassabis.
La industria de la IA avanza constantemente hacia lo que podrías llamar modelos "omni"—aquellos capaces de manejar y sintetizar diversos tipos de medios. Las últimas iteraciones de Gemini de Google, por ejemplo, pueden producir no solo texto, sino también audio e imágenes. Mientras tanto, el modelo predeterminado de ChatGPT de OpenAI puede generar imágenes al instante, incluyendo arte encantador al estilo de Studio Ghibli. Amazon no se queda atrás, con planes para lanzar un modelo "de cualquier a cualquier" más adelante este año.
Estos modelos omni requieren una enorme cantidad de datos de entrenamiento—piensa en imágenes, videos, audio y texto. Hassabis insinuó que los datos de video de Veo provienen principalmente de YouTube, un tesoro propiedad de Google. "Básicamente, al ver videos de YouTube —muchos videos de YouTube— [Veo 2] puede descifrar, sabes, la física del mundo," señaló.
Google había mencionado previamente a TechCrunch que sus modelos "podrían" estar entrenados con "algo" de contenido de YouTube, en línea con los acuerdos hechos con los creadores de YouTube. Vale la pena señalar que el año pasado, Google amplió sus términos de servicio, en parte para acceder a más datos para entrenar sus modelos de IA.
Artículo relacionado
Google integra IA autónoma y widgets con código de ambiente en Android
Google anunció el martes, durante el evento «Android Show: I/O Edition», una nueva serie de funciones de IA bajo su marca Gemini Intelligence. Estas capacidades incluyen la posibilidad de que la IA ge
El modelo de IA de Meta destaca, pero la identidad de código abierto se ve mermada
El panorama de la IA de código abierto siempre ha ofrecido numerosas opciones. Durante años, los desarrolladores pudieron acceder a modelos como Mistral, Falcon y un número cada vez mayor de alternati
Un padre demanda a Google y culpa al chatbot Gemini de la ilusión fatal que sufrió su hijo
Jonathan Gavalas, de 36 años, comenzó a utilizar el chatbot de IA Gemini de Google en agosto de 2025 para que le ayudara con las compras, la redacción de textos y la planificación de viajes. El 2 de o
Recomendaciones de temas especiales relacionados
comentario (2)
0/500
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

En un episodio reciente del podcast Possible, copresentado por el cofundador de LinkedIn, Reid Hoffman, el CEO de Google DeepMind, Demis Hassabis, compartió noticias emocionantes sobre los planes de Google. Reveló que Google planea fusionar sus modelos de IA Gemini con los modelos de generación de video Veo. Esta fusión busca mejorar la comprensión de Gemini del mundo físico, haciéndolo más hábil para entender las dinámicas de la vida real.
Hassabis destacó que desde el inicio, Gemini fue diseñado para ser multimodal. "Siempre hemos construido Gemini, nuestro modelo fundacional, para ser multimodal desde el principio," explicó. ¿La motivación detrás de este enfoque? Una visión para un asistente digital universal que realmente pueda ayudar en la vida cotidiana. "Un asistente que … realmente te ayude en el mundo real," elaboró Hassabis.
La industria de la IA avanza constantemente hacia lo que podrías llamar modelos "omni"—aquellos capaces de manejar y sintetizar diversos tipos de medios. Las últimas iteraciones de Gemini de Google, por ejemplo, pueden producir no solo texto, sino también audio e imágenes. Mientras tanto, el modelo predeterminado de ChatGPT de OpenAI puede generar imágenes al instante, incluyendo arte encantador al estilo de Studio Ghibli. Amazon no se queda atrás, con planes para lanzar un modelo "de cualquier a cualquier" más adelante este año.
Estos modelos omni requieren una enorme cantidad de datos de entrenamiento—piensa en imágenes, videos, audio y texto. Hassabis insinuó que los datos de video de Veo provienen principalmente de YouTube, un tesoro propiedad de Google. "Básicamente, al ver videos de YouTube —muchos videos de YouTube— [Veo 2] puede descifrar, sabes, la física del mundo," señaló.
Google había mencionado previamente a TechCrunch que sus modelos "podrían" estar entrenados con "algo" de contenido de YouTube, en línea con los acuerdos hechos con los creadores de YouTube. Vale la pena señalar que el año pasado, Google amplió sus términos de servicio, en parte para acceder a más datos para entrenar sus modelos de IA.
Google integra IA autónoma y widgets con código de ambiente en Android
Google anunció el martes, durante el evento «Android Show: I/O Edition», una nueva serie de funciones de IA bajo su marca Gemini Intelligence. Estas capacidades incluyen la posibilidad de que la IA ge
El modelo de IA de Meta destaca, pero la identidad de código abierto se ve mermada
El panorama de la IA de código abierto siempre ha ofrecido numerosas opciones. Durante años, los desarrolladores pudieron acceder a modelos como Mistral, Falcon y un número cada vez mayor de alternati
Un padre demanda a Google y culpa al chatbot Gemini de la ilusión fatal que sufrió su hijo
Jonathan Gavalas, de 36 años, comenzó a utilizar el chatbot de IA Gemini de Google en agosto de 2025 para que le ayudara con las compras, la redacción de textos y la planificación de viajes. El 2 de o
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.











