Gemini Omni de Google génère des vidéos à partir d'images, d'enregistrements audio et de texte

Maison

Nouvelles

26 mai 2026

EmmaJohnson

# Google # veo # google io 2026 # google gemini omni # gemini omni flash

Il y a trois ans, Google a lancé Gemini dans le but de développer un grand modèle linguistique multimodal, c'est-à-dire un réseau neuronal unifié formé sur du texte, des images, de l'audio et de la vidéo, capable de générer du contenu dans tous ces formats.

Lors de sa conférence des développeurs Google I/O qui s'est tenue aujourd'hui, l'entreprise a franchi une nouvelle étape vers cette vision avec Gemini Omni, une nouvelle famille de modèles multimodaux. Le PDG de Google, Sundar Pichai, a déclaré qu'Omni permettrait aux utilisateurs de « créer n'importe quoi à partir de n'importe quelle entrée ».

Omni se concentre dans un premier temps sur la vidéo. Les utilisateurs peuvent désormais combiner images, audio, vidéo et texte. Au lieu de se contenter d’assembler ces éléments, Omni effectue un raisonnement intelligent à travers toutes les modalités pour produire un résultat cohérent. Il en résulte des vidéos de haute qualité qui démontrent une compréhension de la physique, de la culture, de l’histoire et des sciences.

Omni permet également aux utilisateurs de retoucher des photos à l’aide de simples commandes textuelles, éliminant ainsi le recours à des logiciels complexes, à l’instar de l’outil Nano Banana de Google.

Google propose déjà Veo, un modèle vidéo dédié qui transforme le texte et les images en vidéos et permet de diriger et de personnaliser des avatars. Cependant, Nicole Brichtova, directrice de la gestion des produits chez Google DeepMind, a souligné que la version lancée aujourd’hui représente bien plus qu’une simple mise à jour de Veo : « C’est la prochaine étape dans la fusion de l’intelligence de Gemini avec les capacités de rendu de nos modèles multimédias. »

Lors d’une conférence de presse lundi, Koray Kavukcuoglu, technologue en chef chez DeepMind, a donné un exemple : lorsqu’on lui a demandé « une animation en pâte à modeler expliquant le repliement des protéines », Omni a rapidement généré une vidéo en stop-motion accompagnée d’une voix off expliquant : « Les protéines commencent par être des chaînes d’acides aminés. Elles se replient en structures telles que des hélices alpha et des sections plates appelées feuillets bêta, pour finalement former une forme tridimensionnelle précise. »

La vision à long terme pour Omni est plus large, englobant des capacités telles que la génération d’images à partir d’audio ou d’audio à partir de vidéo.

« Lorsque nous avons annoncé Gemini pour la première fois, il s’agissait de notre premier modèle d’IA multimodal natif », a fait remarquer Pichai lors de la présentation. « Nous savions que l’entraîner sur une combinaison de texte, de code, d’audio, d’images et de vidéo permettrait une compréhension plus approfondie du monde. Avec les modèles du monde, l’IA évolue de la prédiction de texte à la simulation de la réalité. Gemini Omni est la prochaine étape dans cette direction. »

Dans le cadre de ce lancement, les utilisateurs pourront également créer des vidéos mettant en scène leurs propres avatars numériques — une fonctionnalité popularisée par l’application Sora d’OpenAI, désormais abandonnée, avec Cameos. Pour prévenir les deepfakes, les utilisateurs doivent suivre un processus d’intégration dédié, qui consiste à s’enregistrer en train de prononcer une série de chiffres, selon Brichtova. L’avatar est ensuite enregistré pour une utilisation future.

De plus, toutes les vidéos créées avec Omni comporteront le filigrane numérique SynthID de Google, permettant aux utilisateurs de vérifier si le contenu a été généré à l’aide des produits Gemini.

Le premier modèle de la gamme est Gemini Omni Flash, lancé aujourd’hui sur l’application Gemini, YouTube Shorts et le studio de création IA Flow. Flash peut générer des vidéos de 10 secondes. Mme Brichtova a précisé que cette durée n’était pas une limitation du modèle, mais un choix stratégique visant à élargir l’accessibilité, anticipant que la plupart des utilisateurs préfèrent actuellement des clips plus courts. La prise en charge de vidéos plus longues est prévue dans un avenir proche.

Google semble positionner Omni Flash principalement comme un outil grand public. Lors d’un entretien avec TechCrunch, Brichtova et Gabe Barth-Maron, ingénieur de recherche chez DeepMind, ont décrit des cas d’utilisation des avatars comme étant personnels, tels que la création d’une vidéo de soi-même remportant un prix ou visitant la Lune, ou encore la suppression d’un passant de l’arrière-plan d’une vidéo de vacances.

Barth-Maron l'a résumé succinctement : « C'est comme des mèmes personnalisés. »

« Nous nous sommes clairement attachés à rendre cet outil facile à utiliser pour les consommateurs », a déclaré Brichtova. « Peu de modèles vidéo ont réussi à percer sur le marché grand public, c'est donc notre tentative pour y parvenir. »

Cette facilité d’utilisation s’accompagne toutefois d’une mise en garde : Brichtova et Barth-Maron ont souligné que les instructions de montage devaient être très précises. Sinon, Omni risquerait de trop retoucher ou de modifier involontairement des éléments que l’utilisateur souhaitait conserver — un défi auquel sont également confrontés les utilisateurs de Nano Banana.

Gemini Omni de Google transforme les images, les fichiers audio et le texte en vidéos — et ce n'est qu'un début

Crédits image :Google

Malgré son orientation immédiate vers le grand public, le potentiel d’Omni pour les applications d’entreprise et créatives est évident. Google rendra Omni disponible via une API dans les semaines à venir. L’outil de génération d’avatars — déjà disponible sur Shorts — devrait gagner en popularité auprès des créateurs de contenu. Plus largement, un flux de travail multimodal de bout en bout pourrait révolutionner la publicité et la réalisation de films.

La start-up Luma AI développe un outil agentique similaire, alimenté par son propre modèle « unifié », capable de générer une campagne publicitaire complète à partir d’un brief et d’une image de produit.

« Nous sommes en fait assez fiers des capacités de rendu de texte du modèle, qui sont très utiles pour des applications comme la publicité », a déclaré Brichtova. « Si vous avez besoin d’un placement de produit ou même simplement d’un slogan, la précision est cruciale… Nous prévoyons certainement que les cinéastes et autres créateurs adopteront également ce modèle. »

Les cas d’utilisation plus professionnels pourraient être mieux servis par le futur modèle Omni Pro, conçu pour offrir des performances supérieures dans toutes les tâches Omni. Google n’a pas encore annoncé de date de sortie pour la version Pro, mais Mme Brichtova a indiqué qu’elle serait lancée lorsque « nous aurons réalisé un bond en avant significatif en termes de capacités, bien au-delà de Flash ».

Article connexe

Google Photos redonne vie à la garde-robe emblématique de « Clueless » grâce à l'IA Google Photos a annoncé mercredi une nouvelle fonctionnalité basée sur l'IA qui permettra bientôt de transformer les photos de vos vêtements en une garde-robe numérique, vous permettant ainsi de créer

Google I/O 2026 dévoile l'interaction vocale avec la boîte de réception Gmail Google continue d'intégrer l'IA à votre boîte de réception. Lors de la conférence des développeurs IO 2026 qui s'est tenue mardi, l'entreprise a enrichi sa fonctionnalité « AI Inbox » de Gmail d'une I

Google déploie Gemini dans Chrome en Inde Mercredi, Google a annoncé l'extension de l'intégration de Gemini dans Chrome à de nouvelles régions, notamment l'Inde, le Canada et la Nouvelle-Zélande. Ce déploiement permet aux utilisateurs d'ordin

Recommandations de sujets spéciaux liés

chatbot

Orchestrateurs multi-agents AI : Concevoir des flux de travail automatisés complexes à l'aide du langage naturel

Dernières informations de 2026 : Découvrez les meilleurs outils d’orchestration multi-agent basés sur l’intelligence artificielle pour concevoir des workflows automatisés complexes à l’aide du langage naturel. Notre sélection révèle des plateformes reconnues et puissantes, idéales pour une automation des tâches sans faille et une gestion intelligente des processus. Comparez les options gratuites et payantes en vous basant sur des données issues du monde réel. Optimisez vos performances grâce aux classements mis à jour chaque semaine par les experts de XIX.AI.

10 outils

xix.ai

Édition d'images

Meilleurs logiciels d'optimisation du bruit par intelligence artificielle : éliminez les grains et les artefacts des photos prises la nuit dans des conditions de faible luminosité.

Découvrez les meilleurs logiciels de réduction du bruit par intelligence artificielle en 2026 pour la photographie nocturne en faible luminosité. Notre liste sélectionnée compare les outils gratuits et payants, et inclut des tests pratiques ainsi que des classements mis à jour chaque semaine. Éliminez facilement les grains d'image et autres artefacts. Développez votre avantage grâce à l’intelligence artificielle sur XIX.AI.

10 outils

xix.ai

chatbot

Les meilleurs générateurs d'IA pour créer une petite amie sur mesure : concevez des personnalités, des loisirs et des histoires personnelles uniques

Découvrez les meilleurs générateurs personnalisés de « copines IA » de 2026 sur XIX.AI. Parcourez notre sélection triée sur le volet et très bien notée pour créer des personnalités, des passe-temps et des histoires personnelles uniques. Comparez les options gratuites et payantes grâce à des avis concrets. Trouvez dès aujourd'hui votre compagnon créatif idéal.

10 outils

xix.ai

Productivité

Concepteurs d'architectures IA : concevez des architectures système évolutives à l'aide du langage naturel

Découvrez les meilleurs outils de conception d'architectures d'IA de 2026 sur XIX.AI. Notre sélection des outils les mieux notés propose des solutions puissantes et révolutionnaires pour créer des architectures système évolutives à l'aide du langage naturel. Comparez les options gratuites et payantes grâce à des avis concrets. Tirez pleinement parti de votre avantage en matière d'IA et optimisez votre développement dès aujourd'hui.

10 outils

xix.ai

Création de bande dessinée

Créateurs de profils de personnages AI : générer des histoires de fond détaillées et des références visuelles pour les personnages principaux des mangas

2026 : Les meilleurs outils pour créer des profils de personnages AI : Découvrez des outils hautement réputés qui vous permettent de générer des histoires détaillées et des références visuelles pour vos personnages principaux dans les mangas. Notre liste, mise à jour chaque semaine, compare les options gratuites et payantes sur la base d’essais réels. Trouvez des solutions puissantes qui transformeront votre processus créatif et vous aideront à créer des personnages captivants. Explorez le classement sur XIX.AI et découvrez dès aujourd’hui l’allié idéal pour votre narration.

10 outils

xix.ai

Santé et bien-être

Assistants IA pour la grossesse : créez des programmes d'entraînement et de nutrition sûrs, adaptés à chaque trimestre

Découvrez les meilleurs assistants de grossesse basés sur l'IA pour 2026, qui vous proposent des programmes d'entraînement et des plans nutritionnels personnalisés et sans risque, trimestre par trimestre. Bénéficiez de recommandations triées sur le volet et très bien notées, accompagnées de comparaisons entre les options gratuites et payantes ainsi que d'avis concrets. Vivez une grossesse en pleine forme grâce au guide d'experts de XIX.AI. Découvrez-le dès maintenant.

10 outils

xix.ai