Maison
L'IA « Wan2.7-Image » d'Alibaba génère des visages personnalisés et rédige des dissertations
Aujourd'hui, Alibaba a officiellement lancé son grand modèle unifié de génération et d'édition d'images, Wan2.7-Image. Ce modèle permet non seulement de franchir un cap en matière de qualité visuelle, mais aussi de surmonter les limites traditionnelles de la génération d'images par IA, telles que les « visages génériques » et le « décalage entre les instructions et les résultats », grâce à des améliorations complètes de ses capacités.
Adieu aux visages générés par l'IA : place à l'ère du « une personne, un visage »
Wan2.7-Image améliore considérablement sa fonction de personnalisation des personnages virtuels. Les utilisateurs peuvent tout personnaliser, de la structure osseuse et des yeux aux traits faciaux les plus subtils, en contrôlant avec précision des caractéristiques spécifiques telles qu’un visage ovale, des yeux en amande ou des orbites enfoncées. Cette avancée dépasse l’uniformité mécanique des portraits IA du passé, permettant une véritable expression personnelle.

Fonctionnalité « Palette de couleurs » et rendu de texte « qualité d'impression »
En matière d'expression artistique, le modèle prend désormais en charge une fonctionnalité « Palette de couleurs ». Cela permet aux utilisateurs d'extraire la composition chromatique d'une image de référence — telle que la série rouge de Matisse ou la série jaune de Van Gogh — d'un simple clic et de l'appliquer avec précision à de nouvelles créations. De plus, Wan2.7-Image excelle dans le rendu de textes longs, prenant en charge des entrées allant jusqu'à 3 000 tokens. Il peut générer de manière stable une page A4 entière de contenu contenant des formules et des tableaux complexes, répondant aux normes de qualité d'impression dans les 12 langues prises en charge.

Édition interactive et cohérence multi-sujets
Le modèle dispose de puissantes capacités d’édition interactive, permettant l’alignement, le déplacement ou le remplacement d’éléments via une sélection précise. Par exemple, les utilisateurs peuvent sélectionner des caractères dans une image pour échanger leurs positions ou remplacer des glaçons par des fruits, avec un contrôle au niveau du pixel. Parallèlement, le modèle assure la cohérence entre plusieurs sujets sur un maximum de 9 images, en conservant un style et des caractéristiques uniformes lors de la génération de groupes de filles ou d’ensembles de mobilier par l’IA.

Avancées technologiques majeures et applications industrielles
Wan2.7-Image utilise une architecture unifiée de pointe pour la génération et la compréhension, permettant un mappage sémantique au sein d’un espace latent partagé. Cela signifie que le modèle ne se contente plus de deviner du texte pour faire correspondre des pixels, mais qu’il possède une compréhension sémantique fondamentale. Le modèle a été lancé parallèlement à la version Wan2.7-Image-pro, qui offre une composition plus stable et une compréhension plus précise.

Ce modèle est désormais largement utilisé dans la production de vidéos courtes (un acteur jouant plusieurs rôles), la publicité pour le commerce électronique (une seule image de modèle pour de multiples usages), l'éducation, la recherche et le divertissement social. Les utilisateurs peuvent accéder à l'API via la plateforme BaiLian d'Alibaba Cloud ou l'essayer directement sur le site officiel de Wanxiang .
Article connexe
L'Administration chinoise du cyberespace impose l'étiquetage des courtes vidéos générées par l'IA et des vidéos de fiction
L'Administration chinoise du cyberespace a mis en place un plan global visant à normaliser l'étiquetage des contenus vidéo courts, en imposant aux plateformes l'utilisation de six balises obligatoires
DeepL, réputé pour la traduction de textes, se lance désormais dans la traduction vocale
DeepL, une entreprise de traduction surtout connue pour ses outils textuels, a lancé aujourd’hui une suite de traduction voix-voix destinée à des situations telles que les réunions, les conversations
Les notes de réunion générées par l'IA de Talat sont stockées directement sur votre appareil, et non dans le cloud
Granola, l'application de prise de notes basée sur l'IA et évaluée à 250 millions de dollars, a conquis les fondateurs d'entreprises technologiques et les investisseurs en capital-risque. Mais un déve
Recommandations de sujets spéciaux liés
commentaires (0)
Aujourd'hui, Alibaba a officiellement lancé son grand modèle unifié de génération et d'édition d'images, Wan2.7-Image. Ce modèle permet non seulement de franchir un cap en matière de qualité visuelle, mais aussi de surmonter les limites traditionnelles de la génération d'images par IA, telles que les « visages génériques » et le « décalage entre les instructions et les résultats », grâce à des améliorations complètes de ses capacités.
Adieu aux visages générés par l'IA : place à l'ère du « une personne, un visage »
Wan2.7-Image améliore considérablement sa fonction de personnalisation des personnages virtuels. Les utilisateurs peuvent tout personnaliser, de la structure osseuse et des yeux aux traits faciaux les plus subtils, en contrôlant avec précision des caractéristiques spécifiques telles qu’un visage ovale, des yeux en amande ou des orbites enfoncées. Cette avancée dépasse l’uniformité mécanique des portraits IA du passé, permettant une véritable expression personnelle.

Fonctionnalité « Palette de couleurs » et rendu de texte « qualité d'impression »
En matière d'expression artistique, le modèle prend désormais en charge une fonctionnalité « Palette de couleurs ». Cela permet aux utilisateurs d'extraire la composition chromatique d'une image de référence — telle que la série rouge de Matisse ou la série jaune de Van Gogh — d'un simple clic et de l'appliquer avec précision à de nouvelles créations. De plus, Wan2.7-Image excelle dans le rendu de textes longs, prenant en charge des entrées allant jusqu'à 3 000 tokens. Il peut générer de manière stable une page A4 entière de contenu contenant des formules et des tableaux complexes, répondant aux normes de qualité d'impression dans les 12 langues prises en charge.

Édition interactive et cohérence multi-sujets
Le modèle dispose de puissantes capacités d’édition interactive, permettant l’alignement, le déplacement ou le remplacement d’éléments via une sélection précise. Par exemple, les utilisateurs peuvent sélectionner des caractères dans une image pour échanger leurs positions ou remplacer des glaçons par des fruits, avec un contrôle au niveau du pixel. Parallèlement, le modèle assure la cohérence entre plusieurs sujets sur un maximum de 9 images, en conservant un style et des caractéristiques uniformes lors de la génération de groupes de filles ou d’ensembles de mobilier par l’IA.

Avancées technologiques majeures et applications industrielles
Wan2.7-Image utilise une architecture unifiée de pointe pour la génération et la compréhension, permettant un mappage sémantique au sein d’un espace latent partagé. Cela signifie que le modèle ne se contente plus de deviner du texte pour faire correspondre des pixels, mais qu’il possède une compréhension sémantique fondamentale. Le modèle a été lancé parallèlement à la version Wan2.7-Image-pro, qui offre une composition plus stable et une compréhension plus précise.

Ce modèle est désormais largement utilisé dans la production de vidéos courtes (un acteur jouant plusieurs rôles), la publicité pour le commerce électronique (une seule image de modèle pour de multiples usages), l'éducation, la recherche et le divertissement social. Les utilisateurs peuvent accéder à l'API via la
L'Administration chinoise du cyberespace impose l'étiquetage des courtes vidéos générées par l'IA et des vidéos de fiction
L'Administration chinoise du cyberespace a mis en place un plan global visant à normaliser l'étiquetage des contenus vidéo courts, en imposant aux plateformes l'utilisation de six balises obligatoires
DeepL, réputé pour la traduction de textes, se lance désormais dans la traduction vocale
DeepL, une entreprise de traduction surtout connue pour ses outils textuels, a lancé aujourd’hui une suite de traduction voix-voix destinée à des situations telles que les réunions, les conversations
Les notes de réunion générées par l'IA de Talat sont stockées directement sur votre appareil, et non dans le cloud
Granola, l'application de prise de notes basée sur l'IA et évaluée à 250 millions de dollars, a conquis les fondateurs d'entreprises technologiques et les investisseurs en capital-risque. Mais un déve











