Maison
Gemini Omni de Google génère des vidéos à partir d'images, d'enregistrements audio et de texte
Il y a trois ans, Google a lancé Gemini dans le but de développer un grand modèle linguistique multimodal, c'est-à-dire un réseau neuronal unifié formé sur du texte, des images, de l'audio et de la vidéo, capable de générer du contenu dans tous ces formats.
Lors de sa conférence des développeurs Google I/O qui s'est tenue aujourd'hui, l'entreprise a franchi une nouvelle étape vers cette vision avec Gemini Omni, une nouvelle famille de modèles multimodaux. Le PDG de Google, Sundar Pichai, a déclaré qu'Omni permettrait aux utilisateurs de « créer n'importe quoi à partir de n'importe quelle entrée ».
Omni se concentre dans un premier temps sur la vidéo. Les utilisateurs peuvent désormais combiner images, audio, vidéo et texte. Au lieu de se contenter d’assembler ces éléments, Omni effectue un raisonnement intelligent à travers toutes les modalités pour produire un résultat cohérent. Il en résulte des vidéos de haute qualité qui démontrent une compréhension de la physique, de la culture, de l’histoire et des sciences.
Omni permet également aux utilisateurs de retoucher des photos à l’aide de simples commandes textuelles, éliminant ainsi le recours à des logiciels complexes, à l’instar de l’outil Nano Banana de Google.
Google propose déjà Veo, un modèle vidéo dédié qui transforme le texte et les images en vidéos et permet de diriger et de personnaliser des avatars. Cependant, Nicole Brichtova, directrice de la gestion des produits chez Google DeepMind, a souligné que la version lancée aujourd’hui représente bien plus qu’une simple mise à jour de Veo : « C’est la prochaine étape dans la fusion de l’intelligence de Gemini avec les capacités de rendu de nos modèles multimédias. »
Lors d’une conférence de presse lundi, Koray Kavukcuoglu, technologue en chef chez DeepMind, a donné un exemple : lorsqu’on lui a demandé « une animation en pâte à modeler expliquant le repliement des protéines », Omni a rapidement généré une vidéo en stop-motion accompagnée d’une voix off expliquant : « Les protéines commencent par être des chaînes d’acides aminés. Elles se replient en structures telles que des hélices alpha et des sections plates appelées feuillets bêta, pour finalement former une forme tridimensionnelle précise. »
La vision à long terme pour Omni est plus large, englobant des capacités telles que la génération d’images à partir d’audio ou d’audio à partir de vidéo.
« Lorsque nous avons annoncé Gemini pour la première fois, il s’agissait de notre premier modèle d’IA multimodal natif », a fait remarquer Pichai lors de la présentation. « Nous savions que l’entraîner sur une combinaison de texte, de code, d’audio, d’images et de vidéo permettrait une compréhension plus approfondie du monde. Avec les modèles du monde, l’IA évolue de la prédiction de texte à la simulation de la réalité. Gemini Omni est la prochaine étape dans cette direction. »
Dans le cadre de ce lancement, les utilisateurs pourront également créer des vidéos mettant en scène leurs propres avatars numériques — une fonctionnalité popularisée par l’application Sora d’OpenAI, désormais abandonnée, avec Cameos. Pour prévenir les deepfakes, les utilisateurs doivent suivre un processus d’intégration dédié, qui consiste à s’enregistrer en train de prononcer une série de chiffres, selon Brichtova. L’avatar est ensuite enregistré pour une utilisation future.
De plus, toutes les vidéos créées avec Omni comporteront le filigrane numérique SynthID de Google, permettant aux utilisateurs de vérifier si le contenu a été généré à l’aide des produits Gemini.
Le premier modèle de la gamme est Gemini Omni Flash, lancé aujourd’hui sur l’application Gemini, YouTube Shorts et le studio de création IA Flow. Flash peut générer des vidéos de 10 secondes. Mme Brichtova a précisé que cette durée n’était pas une limitation du modèle, mais un choix stratégique visant à élargir l’accessibilité, anticipant que la plupart des utilisateurs préfèrent actuellement des clips plus courts. La prise en charge de vidéos plus longues est prévue dans un avenir proche.
Google semble positionner Omni Flash principalement comme un outil grand public. Lors d’un entretien avec TechCrunch, Brichtova et Gabe Barth-Maron, ingénieur de recherche chez DeepMind, ont décrit des cas d’utilisation des avatars comme étant personnels, tels que la création d’une vidéo de soi-même remportant un prix ou visitant la Lune, ou encore la suppression d’un passant de l’arrière-plan d’une vidéo de vacances.
Barth-Maron l'a résumé succinctement : « C'est comme des mèmes personnalisés. »
« Nous nous sommes clairement attachés à rendre cet outil facile à utiliser pour les consommateurs », a déclaré Brichtova. « Peu de modèles vidéo ont réussi à percer sur le marché grand public, c'est donc notre tentative pour y parvenir. »
Cette facilité d’utilisation s’accompagne toutefois d’une mise en garde : Brichtova et Barth-Maron ont souligné que les instructions de montage devaient être très précises. Sinon, Omni risquerait de trop retoucher ou de modifier involontairement des éléments que l’utilisateur souhaitait conserver — un défi auquel sont également confrontés les utilisateurs de Nano Banana.

Crédits image :Google
Malgré son orientation immédiate vers le grand public, le potentiel d’Omni pour les applications d’entreprise et créatives est évident. Google rendra Omni disponible via une API dans les semaines à venir. L’outil de génération d’avatars — déjà disponible sur Shorts — devrait gagner en popularité auprès des créateurs de contenu. Plus largement, un flux de travail multimodal de bout en bout pourrait révolutionner la publicité et la réalisation de films.
La start-up Luma AI développe un outil agentique similaire, alimenté par son propre modèle « unifié », capable de générer une campagne publicitaire complète à partir d’un brief et d’une image de produit.
« Nous sommes en fait assez fiers des capacités de rendu de texte du modèle, qui sont très utiles pour des applications comme la publicité », a déclaré Brichtova. « Si vous avez besoin d’un placement de produit ou même simplement d’un slogan, la précision est cruciale… Nous prévoyons certainement que les cinéastes et autres créateurs adopteront également ce modèle. »
Les cas d’utilisation plus professionnels pourraient être mieux servis par le futur modèle Omni Pro, conçu pour offrir des performances supérieures dans toutes les tâches Omni. Google n’a pas encore annoncé de date de sortie pour la version Pro, mais Mme Brichtova a indiqué qu’elle serait lancée lorsque « nous aurons réalisé un bond en avant significatif en termes de capacités, bien au-delà de Flash ».
Article connexe
Google Photos redonne vie à la garde-robe emblématique de « Clueless » grâce à l'IA
Google Photos a annoncé mercredi une nouvelle fonctionnalité basée sur l'IA qui permettra bientôt de transformer les photos de vos vêtements en une garde-robe numérique, vous permettant ainsi de créer
Google I/O 2026 dévoile l'interaction vocale avec la boîte de réception Gmail
Google continue d'intégrer l'IA à votre boîte de réception. Lors de la conférence des développeurs IO 2026 qui s'est tenue mardi, l'entreprise a enrichi sa fonctionnalité « AI Inbox » de Gmail d'une I
Google déploie Gemini dans Chrome en Inde
Mercredi, Google a annoncé l'extension de l'intégration de Gemini dans Chrome à de nouvelles régions, notamment l'Inde, le Canada et la Nouvelle-Zélande. Ce déploiement permet aux utilisateurs d'ordin
Recommandations de sujets spéciaux liés
commentaires (0)
Il y a trois ans, Google a lancé Gemini dans le but de développer un grand modèle linguistique multimodal, c'est-à-dire un réseau neuronal unifié formé sur du texte, des images, de l'audio et de la vidéo, capable de générer du contenu dans tous ces formats.
Lors de sa conférence des développeurs Google I/O qui s'est tenue aujourd'hui, l'entreprise a franchi une nouvelle étape vers cette vision avec Gemini Omni, une nouvelle famille de modèles multimodaux. Le PDG de Google, Sundar Pichai, a déclaré qu'Omni permettrait aux utilisateurs de « créer n'importe quoi à partir de n'importe quelle entrée ».
Omni se concentre dans un premier temps sur la vidéo. Les utilisateurs peuvent désormais combiner images, audio, vidéo et texte. Au lieu de se contenter d’assembler ces éléments, Omni effectue un raisonnement intelligent à travers toutes les modalités pour produire un résultat cohérent. Il en résulte des vidéos de haute qualité qui démontrent une compréhension de la physique, de la culture, de l’histoire et des sciences.
Omni permet également aux utilisateurs de retoucher des photos à l’aide de simples commandes textuelles, éliminant ainsi le recours à des logiciels complexes, à l’instar de l’outil Nano Banana de Google.
Google propose déjà Veo, un modèle vidéo dédié qui transforme le texte et les images en vidéos et permet de diriger et de personnaliser des avatars. Cependant, Nicole Brichtova, directrice de la gestion des produits chez Google DeepMind, a souligné que la version lancée aujourd’hui représente bien plus qu’une simple mise à jour de Veo : « C’est la prochaine étape dans la fusion de l’intelligence de Gemini avec les capacités de rendu de nos modèles multimédias. »
Lors d’une conférence de presse lundi, Koray Kavukcuoglu, technologue en chef chez DeepMind, a donné un exemple : lorsqu’on lui a demandé « une animation en pâte à modeler expliquant le repliement des protéines », Omni a rapidement généré une vidéo en stop-motion accompagnée d’une voix off expliquant : « Les protéines commencent par être des chaînes d’acides aminés. Elles se replient en structures telles que des hélices alpha et des sections plates appelées feuillets bêta, pour finalement former une forme tridimensionnelle précise. »
La vision à long terme pour Omni est plus large, englobant des capacités telles que la génération d’images à partir d’audio ou d’audio à partir de vidéo.
« Lorsque nous avons annoncé Gemini pour la première fois, il s’agissait de notre premier modèle d’IA multimodal natif », a fait remarquer Pichai lors de la présentation. « Nous savions que l’entraîner sur une combinaison de texte, de code, d’audio, d’images et de vidéo permettrait une compréhension plus approfondie du monde. Avec les modèles du monde, l’IA évolue de la prédiction de texte à la simulation de la réalité. Gemini Omni est la prochaine étape dans cette direction. »
Dans le cadre de ce lancement, les utilisateurs pourront également créer des vidéos mettant en scène leurs propres avatars numériques — une fonctionnalité popularisée par l’application Sora d’OpenAI, désormais abandonnée, avec Cameos. Pour prévenir les deepfakes, les utilisateurs doivent suivre un processus d’intégration dédié, qui consiste à s’enregistrer en train de prononcer une série de chiffres, selon Brichtova. L’avatar est ensuite enregistré pour une utilisation future.
De plus, toutes les vidéos créées avec Omni comporteront le filigrane numérique SynthID de Google, permettant aux utilisateurs de vérifier si le contenu a été généré à l’aide des produits Gemini.
Le premier modèle de la gamme est Gemini Omni Flash, lancé aujourd’hui sur l’application Gemini, YouTube Shorts et le studio de création IA Flow. Flash peut générer des vidéos de 10 secondes. Mme Brichtova a précisé que cette durée n’était pas une limitation du modèle, mais un choix stratégique visant à élargir l’accessibilité, anticipant que la plupart des utilisateurs préfèrent actuellement des clips plus courts. La prise en charge de vidéos plus longues est prévue dans un avenir proche.
Google semble positionner Omni Flash principalement comme un outil grand public. Lors d’un entretien avec TechCrunch, Brichtova et Gabe Barth-Maron, ingénieur de recherche chez DeepMind, ont décrit des cas d’utilisation des avatars comme étant personnels, tels que la création d’une vidéo de soi-même remportant un prix ou visitant la Lune, ou encore la suppression d’un passant de l’arrière-plan d’une vidéo de vacances.
Barth-Maron l'a résumé succinctement : « C'est comme des mèmes personnalisés. »
« Nous nous sommes clairement attachés à rendre cet outil facile à utiliser pour les consommateurs », a déclaré Brichtova. « Peu de modèles vidéo ont réussi à percer sur le marché grand public, c'est donc notre tentative pour y parvenir. »
Cette facilité d’utilisation s’accompagne toutefois d’une mise en garde : Brichtova et Barth-Maron ont souligné que les instructions de montage devaient être très précises. Sinon, Omni risquerait de trop retoucher ou de modifier involontairement des éléments que l’utilisateur souhaitait conserver — un défi auquel sont également confrontés les utilisateurs de Nano Banana.

Crédits image :Google
Malgré son orientation immédiate vers le grand public, le potentiel d’Omni pour les applications d’entreprise et créatives est évident. Google rendra Omni disponible via une API dans les semaines à venir. L’outil de génération d’avatars — déjà disponible sur Shorts — devrait gagner en popularité auprès des créateurs de contenu. Plus largement, un flux de travail multimodal de bout en bout pourrait révolutionner la publicité et la réalisation de films.
La start-up Luma AI développe un outil agentique similaire, alimenté par son propre modèle « unifié », capable de générer une campagne publicitaire complète à partir d’un brief et d’une image de produit.
« Nous sommes en fait assez fiers des capacités de rendu de texte du modèle, qui sont très utiles pour des applications comme la publicité », a déclaré Brichtova. « Si vous avez besoin d’un placement de produit ou même simplement d’un slogan, la précision est cruciale… Nous prévoyons certainement que les cinéastes et autres créateurs adopteront également ce modèle. »
Les cas d’utilisation plus professionnels pourraient être mieux servis par le futur modèle Omni Pro, conçu pour offrir des performances supérieures dans toutes les tâches Omni. Google n’a pas encore annoncé de date de sortie pour la version Pro, mais Mme Brichtova a indiqué qu’elle serait lancée lorsque « nous aurons réalisé un bond en avant significatif en termes de capacités, bien au-delà de Flash ».
Google Photos redonne vie à la garde-robe emblématique de « Clueless » grâce à l'IA
Google Photos a annoncé mercredi une nouvelle fonctionnalité basée sur l'IA qui permettra bientôt de transformer les photos de vos vêtements en une garde-robe numérique, vous permettant ainsi de créer
Google I/O 2026 dévoile l'interaction vocale avec la boîte de réception Gmail
Google continue d'intégrer l'IA à votre boîte de réception. Lors de la conférence des développeurs IO 2026 qui s'est tenue mardi, l'entreprise a enrichi sa fonctionnalité « AI Inbox » de Gmail d'une I
Google déploie Gemini dans Chrome en Inde
Mercredi, Google a annoncé l'extension de l'intégration de Gemini dans Chrome à de nouvelles régions, notamment l'Inde, le Canada et la Nouvelle-Zélande. Ce déploiement permet aux utilisateurs d'ordin











