Le PDG de Deepmind Demis Hassabis annonce l'intégration future des modèles Gemini et Veo AI de Google

Dans un récent épisode du podcast Possible, co-animé par le co-fondateur de LinkedIn, Reid Hoffman, le PDG de Google DeepMind, Demis Hassabis, a partagé des nouvelles excitantes sur les projets de Google. Il a révélé que Google envisage de fusionner ses modèles d'IA Gemini avec les modèles de génération vidéo Veo. Cette fusion vise à améliorer la compréhension de Gemini du monde physique, le rendant plus apte à saisir les dynamiques de la vie réelle.
Hassabis a souligné que dès le départ, Gemini a été conçu pour être multimodal. « Nous avons toujours construit Gemini, notre modèle de base, pour être multimodal dès le début », a-t-il expliqué. La motivation derrière cette approche ? Une vision d’un assistant numérique universel capable d’aider véritablement dans la vie quotidienne. « Un assistant qui … vous aide réellement dans le monde réel », a détaillé Hassabis.
L’industrie de l’IA progresse régulièrement vers ce que l’on pourrait appeler des modèles « omni » — ceux capables de gérer et de synthétiser différents types de médias. Les dernières itérations de Gemini de Google, par exemple, peuvent produire non seulement du texte, mais aussi de l’audio et des images. Pendant ce temps, le modèle par défaut de ChatGPT d’OpenAI peut créer des images sur le vif, y compris des œuvres dans le style de Studio Ghibli. Amazon n’est pas en reste, avec des plans pour déployer un modèle « tout-à-tout » plus tard cette année.
Ces modèles omni nécessitent une énorme quantité de données d’entraînement — pensez aux images, vidéos, audio et texte. Hassabis a laissé entendre que les données vidéo de Veo proviennent principalement de YouTube, un trésor appartenant à Google. « En gros, en regardant des vidéos YouTube — beaucoup de vidéos YouTube — [Veo 2] peut comprendre, vous savez, la physique du monde », a-t-il noté.
Google avait précédemment mentionné à TechCrunch que ses modèles « pourraient être » entraînés sur « certains » contenus YouTube, conformément aux accords passés avec les créateurs YouTube. Il est à noter que l’année dernière, Google a élargi ses conditions de service, en partie pour accéder à davantage de données pour entraîner ses modèles d’IA.
Article connexe
Google Dévoile le Mode AI et Veo 3 pour Révolutionner la Recherche et la Création Vidéo
Google a récemment lancé le Mode AI et Veo 3, deux technologies innovantes prêtes à transformer la recherche sur le web et la création de contenu numérique. Le Mode AI offre une expérience de recherch
Chatbot Gemini Améliore les Capacités d'Édition d'Images
L'application de chatbot Gemini de Google permet désormais aux utilisateurs d'éditer des images générées par IA et téléchargées depuis des téléphones ou des ordinateurs, a annoncé la société dans un b
Google Dévoile Deep Think pour Améliorer les Performances de l'IA Gemini
Google fait progresser ses modèles d'IA Gemini de premier plan.Lors de Google I/O 2025 mardi, l'entreprise a présenté Deep Think, un mode de raisonnement avancé pour son modèle phare Gemini 2.5 Pro. D
commentaires (1)
0/200
RalphSanchez
1 août 2025 04:48:18 UTC+02:00
Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅
0
Dans un récent épisode du podcast Possible, co-animé par le co-fondateur de LinkedIn, Reid Hoffman, le PDG de Google DeepMind, Demis Hassabis, a partagé des nouvelles excitantes sur les projets de Google. Il a révélé que Google envisage de fusionner ses modèles d'IA Gemini avec les modèles de génération vidéo Veo. Cette fusion vise à améliorer la compréhension de Gemini du monde physique, le rendant plus apte à saisir les dynamiques de la vie réelle.
Hassabis a souligné que dès le départ, Gemini a été conçu pour être multimodal. « Nous avons toujours construit Gemini, notre modèle de base, pour être multimodal dès le début », a-t-il expliqué. La motivation derrière cette approche ? Une vision d’un assistant numérique universel capable d’aider véritablement dans la vie quotidienne. « Un assistant qui … vous aide réellement dans le monde réel », a détaillé Hassabis.
L’industrie de l’IA progresse régulièrement vers ce que l’on pourrait appeler des modèles « omni » — ceux capables de gérer et de synthétiser différents types de médias. Les dernières itérations de Gemini de Google, par exemple, peuvent produire non seulement du texte, mais aussi de l’audio et des images. Pendant ce temps, le modèle par défaut de ChatGPT d’OpenAI peut créer des images sur le vif, y compris des œuvres dans le style de Studio Ghibli. Amazon n’est pas en reste, avec des plans pour déployer un modèle « tout-à-tout » plus tard cette année.
Ces modèles omni nécessitent une énorme quantité de données d’entraînement — pensez aux images, vidéos, audio et texte. Hassabis a laissé entendre que les données vidéo de Veo proviennent principalement de YouTube, un trésor appartenant à Google. « En gros, en regardant des vidéos YouTube — beaucoup de vidéos YouTube — [Veo 2] peut comprendre, vous savez, la physique du monde », a-t-il noté.
Google avait précédemment mentionné à TechCrunch que ses modèles « pourraient être » entraînés sur « certains » contenus YouTube, conformément aux accords passés avec les créateurs YouTube. Il est à noter que l’année dernière, Google a élargi ses conditions de service, en partie pour accéder à davantage de données pour entraîner ses modèles d’IA.



Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅












