Maison
Le PDG de Deepmind Demis Hassabis annonce l'intégration future des modèles Gemini et Veo AI de Google

Dans un récent épisode du podcast Possible, co-animé par le co-fondateur de LinkedIn, Reid Hoffman, le PDG de Google DeepMind, Demis Hassabis, a partagé des nouvelles excitantes sur les projets de Google. Il a révélé que Google envisage de fusionner ses modèles d'IA Gemini avec les modèles de génération vidéo Veo. Cette fusion vise à améliorer la compréhension de Gemini du monde physique, le rendant plus apte à saisir les dynamiques de la vie réelle.
Hassabis a souligné que dès le départ, Gemini a été conçu pour être multimodal. « Nous avons toujours construit Gemini, notre modèle de base, pour être multimodal dès le début », a-t-il expliqué. La motivation derrière cette approche ? Une vision d’un assistant numérique universel capable d’aider véritablement dans la vie quotidienne. « Un assistant qui … vous aide réellement dans le monde réel », a détaillé Hassabis.
L’industrie de l’IA progresse régulièrement vers ce que l’on pourrait appeler des modèles « omni » — ceux capables de gérer et de synthétiser différents types de médias. Les dernières itérations de Gemini de Google, par exemple, peuvent produire non seulement du texte, mais aussi de l’audio et des images. Pendant ce temps, le modèle par défaut de ChatGPT d’OpenAI peut créer des images sur le vif, y compris des œuvres dans le style de Studio Ghibli. Amazon n’est pas en reste, avec des plans pour déployer un modèle « tout-à-tout » plus tard cette année.
Ces modèles omni nécessitent une énorme quantité de données d’entraînement — pensez aux images, vidéos, audio et texte. Hassabis a laissé entendre que les données vidéo de Veo proviennent principalement de YouTube, un trésor appartenant à Google. « En gros, en regardant des vidéos YouTube — beaucoup de vidéos YouTube — [Veo 2] peut comprendre, vous savez, la physique du monde », a-t-il noté.
Google avait précédemment mentionné à TechCrunch que ses modèles « pourraient être » entraînés sur « certains » contenus YouTube, conformément aux accords passés avec les créateurs YouTube. Il est à noter que l’année dernière, Google a élargi ses conditions de service, en partie pour accéder à davantage de données pour entraîner ses modèles d’IA.
Article connexe
Google intègre une IA autonome et des widgets adaptatifs à Android
Google a annoncé mardi, lors de l'événement « Android Show : I/O Edition », une nouvelle série de fonctionnalités d'IA sous sa marque Gemini Intelligence. Ces fonctionnalités permettent notamment à l'
Le modèle d'IA de Meta est performant, mais son caractère open source s'affaiblit
Le paysage de l'IA open source a toujours offert un large choix. Pendant des années, les développeurs ont pu accéder à des modèles tels que Mistral, Falcon et à un nombre croissant d'alternatives open
Un père poursuit Google en justice et accuse le chatbot Gemini d'être à l'origine des délires qui ont coûté la vie à son fils
Jonathan Gavalas, 36 ans, a commencé à utiliser le chatbot IA Gemini de Google en août 2025 pour obtenir de l'aide dans ses achats, ses travaux d'écriture et l'organisation de ses voyag
Recommandations de sujets spéciaux liés
commentaires (2)
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.

Dans un récent épisode du podcast Possible, co-animé par le co-fondateur de LinkedIn, Reid Hoffman, le PDG de Google DeepMind, Demis Hassabis, a partagé des nouvelles excitantes sur les projets de Google. Il a révélé que Google envisage de fusionner ses modèles d'IA Gemini avec les modèles de génération vidéo Veo. Cette fusion vise à améliorer la compréhension de Gemini du monde physique, le rendant plus apte à saisir les dynamiques de la vie réelle.
Hassabis a souligné que dès le départ, Gemini a été conçu pour être multimodal. « Nous avons toujours construit Gemini, notre modèle de base, pour être multimodal dès le début », a-t-il expliqué. La motivation derrière cette approche ? Une vision d’un assistant numérique universel capable d’aider véritablement dans la vie quotidienne. « Un assistant qui … vous aide réellement dans le monde réel », a détaillé Hassabis.
L’industrie de l’IA progresse régulièrement vers ce que l’on pourrait appeler des modèles « omni » — ceux capables de gérer et de synthétiser différents types de médias. Les dernières itérations de Gemini de Google, par exemple, peuvent produire non seulement du texte, mais aussi de l’audio et des images. Pendant ce temps, le modèle par défaut de ChatGPT d’OpenAI peut créer des images sur le vif, y compris des œuvres dans le style de Studio Ghibli. Amazon n’est pas en reste, avec des plans pour déployer un modèle « tout-à-tout » plus tard cette année.
Ces modèles omni nécessitent une énorme quantité de données d’entraînement — pensez aux images, vidéos, audio et texte. Hassabis a laissé entendre que les données vidéo de Veo proviennent principalement de YouTube, un trésor appartenant à Google. « En gros, en regardant des vidéos YouTube — beaucoup de vidéos YouTube — [Veo 2] peut comprendre, vous savez, la physique du monde », a-t-il noté.
Google avait précédemment mentionné à TechCrunch que ses modèles « pourraient être » entraînés sur « certains » contenus YouTube, conformément aux accords passés avec les créateurs YouTube. Il est à noter que l’année dernière, Google a élargi ses conditions de service, en partie pour accéder à davantage de données pour entraîner ses modèles d’IA.
Google intègre une IA autonome et des widgets adaptatifs à Android
Google a annoncé mardi, lors de l'événement « Android Show : I/O Edition », une nouvelle série de fonctionnalités d'IA sous sa marque Gemini Intelligence. Ces fonctionnalités permettent notamment à l'
Le modèle d'IA de Meta est performant, mais son caractère open source s'affaiblit
Le paysage de l'IA open source a toujours offert un large choix. Pendant des années, les développeurs ont pu accéder à des modèles tels que Mistral, Falcon et à un nombre croissant d'alternatives open
Un père poursuit Google en justice et accuse le chatbot Gemini d'être à l'origine des délires qui ont coûté la vie à son fils
Jonathan Gavalas, 36 ans, a commencé à utiliser le chatbot IA Gemini de Google en août 2025 pour obtenir de l'aide dans ses achats, ses travaux d'écriture et l'organisation de ses voyag
The integration of Gemini and Veo sounds promising! Could this be the key to generating truly coherent multimodal content, or are we just stitching together different black boxes? The computational cost for such combined models might be enormous though. A fascinating glimpse into the future roadmap of Google's AI.











