Le modèle TTS open source OmniVoice de Xiaomi permet le clonage sans apprentissage préalable dans plus de 600 langues

Maison

Nouvelles

8 mai 2026

RobertSanchez

Récemment, l'équipe Kaldi de nouvelle génération (k2-fsa) de Xiaomi a officiellement mis en open source OmniVoice, un modèle de synthèse vocale multilingue de grande envergure fonctionnant en mode « zero-shot » et prenant en charge plus de 600 langues. Ce modèle obtient des résultats de pointe dans plusieurs tests de référence clés pour la synthèse en chinois, en anglais et en multilingue, marquant ainsi une avancée significative dans ce domaine.

Des performances de pointe : un taux d'erreur sur les mots (WER) en chinois aussi bas que 0,84 %, surpassant les modèles courants lors des tests multilingues

Sur l'ensemble de tests chinois Seed-TTS, OmniVoice atteint un taux d'erreur sur les mots (WER) remarquablement bas, à seulement 0,84 %. Lors des évaluations multilingues, ses scores de similarité (SIM-o) et de WER surpassent ceux de modèles commerciaux bien connus tels que ElevenLabs v2 et MiniMax, démontrant un naturel et une clarté exceptionnels de la parole.

Inférence ultra-rapide : un RTF aussi bas que 0,025, 40 fois plus rapide que le temps réel

OmniVoice affiche un facteur temps réel (RTF) aussi bas que 0,025, ce qui signifie que sa vitesse de synthèse dépasse largement les exigences en temps réel. Ce gain d'efficacité considérable permet la génération rapide de discours longs dans des applications pratiques, améliorant ainsi considérablement l'expérience utilisateur.

Innovation architecturale fondamentale : conception discrète non autorégressive inspirée des modèles de diffusion

OmniVoice utilise une architecture non autorégressive discrète novatrice inspirée des modèles de langage par diffusion. Il génère de la parole à partir de texte en une seule étape, en contournant les tokens sémantiques intermédiaires traditionnels. Cette conception rationalisée simplifie le pipeline tout en conservant une qualité de sortie élevée. Une stratégie de masquage aléatoire du livre de codes complet, combinée à une initialisation par un LLM pré-entraîné, renforce encore l'efficacité de l'entraînement et améliore la clarté et l'intelligibilité de la parole finale.

Clonage et personnalisation flexibles de la voix : fonctionne avec seulement 3 à 10 secondes d'audio

Le modèle prend en charge le clonage vocal de haute qualité sans apprentissage préalable (zero-shot) en utilisant seulement 3 à 10 secondes d'audio de référence. Les utilisateurs peuvent également personnaliser les attributs de la voix via des invites en langage naturel, en spécifiant le sexe, l'âge, la hauteur de voix, l'accent, le dialecte et même des effets spéciaux comme le chuchotement.

Prise en charge des symboles non linguistiques et contrôle précis de la prononciation

OmniVoice peut traiter des symboles non linguistiques, tels que [rire], et prend en charge la correction de la prononciation via le pinyin ou des symboles phonétiques. Cela le rend particulièrement adapté à la synthèse précise en chinois et dans divers dialectes.

Prise en charge de plus de 600 langues : contribution à la préservation numérique des langues minoritaires et en voie de disparition

L'un des principaux atouts d'OmniVoice réside dans sa couverture linguistique étendue, prenant efficacement en charge à la fois les langues majeures et de nombreuses langues disposant de peu de ressources. Pour les langues minoritaires et en voie de disparition, il peut générer une parole de haute qualité avec un minimum d'échantillons de données, offrant ainsi un potentiel significatif pour la préservation numérique des langues et la protection culturelle.

Le code et les modèles pré-entraînés d'OmniVoice sont désormais disponibles en open source sur GitHub et Hugging Face, ce qui permet aux développeurs de le déployer localement ou de l'intégrer dans des applications. AIbase continuera à suivre les retours de la communauté et les cas d'utilisation concrets. Les développeurs sont encouragés à partager leurs expériences.

Lien vers le projet : https://github.com/k2-fsa/OmniVoice

Article connexe

Reliance dévoile un plan d'investissement de 110 milliards de dollars dans l'IA alors que l'Inde accélère sa transition technologique Mukesh Ambani, le président milliardaire du conglomérat indien Reliance, a annoncé jeudi un plan de 10 000 milliards de roupies (environ 110 milliards de dollars) visant à mettre en place une infrastr

Zhiyuan WITA met fin à son projet d'interaction avec des robots « nus » en déposant sa première demande d'agrément Le secteur de l'intelligence incarnée a franchi une étape importante. Selon la dernière annonce de l'Administration du cyberespace de Shanghai, le grand modèle WITA développé par Zhiyuan a mené à bien

Une étude anthropologique établit un lien entre les contenus générés par l'IA et une diminution de la réflexion humaine Lorsque vous voyez l'IA produire instantanément un code ou un document bien structuré et d'une logique claire, êtes-vous tenté de lui faire confiance sans y réfléchir à deux fois ? Selon AIbase, Anthr

Recommandations de sujets spéciaux liés

Création de bande dessinée

Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils

xix.ai

en écrivant

Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales

Découvrez les meilleurs outils de création de profils de personnages basés sur l'IA de 2026 pour donner de la profondeur à vos personnages. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants, capables de générer des motivations cohérentes et des défauts fatals. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez dès maintenant votre potentiel de narration.

10 outils

xix.ai

Entreprise

Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique

Découvrez les meilleurs logiciels d'optimisation des prix basés sur l'IA pour 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan qui changent la donne : ils surveillent vos concurrents et ajustent automatiquement les prix de votre boutique pour maximiser vos bénéfices. Comparez les options gratuites et payantes grâce à des tests concrets. Prenez dès maintenant une longueur d'avance en matière de tarification.

10 outils

xix.ai

code

Les meilleurs outils d'analyse de code basés sur l'IA : automatisez la conformité au code propre et refactorisez les fichiers des dépôts hérités

Découvrez les meilleurs outils d'analyse de code par IA de 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan, véritables révolutionnaires, permettant d'automatiser la conformité au code propre et de refactoriser les fichiers de dépôts hérités. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Prenez dès aujourd'hui une longueur d'avance grâce à l'IA.

10 outils

xix.ai

Synthèse vocale

Les meilleures applications de synthèse vocale basées sur l'IA pour la dyslexie : un soutien à l'apprentissage et à l'efficacité en lecture pour les élèves

Découvrez les meilleures applications de synthèse vocale par IA de 2026, spécialement sélectionnées pour aider les personnes dyslexiques. Notre classement d'experts compare les outils gratuits et payants, en mettant en avant des fonctionnalités performantes qui améliorent l'efficacité de la lecture et l'apprentissage. Découvrez des solutions révolutionnaires à ne pas manquer pour libérer le potentiel des élèves. Commencez votre parcours sur XIX.AI.

10 outils

xix.ai

Création de bande dessinée

Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie

Découvrez les meilleurs générateurs IA de mangas shonen de 2026 sur XIX.AI. Notre sélection triée sur le volet comprend des outils performants pour créer des séquences d'action à couper le souffle et des effets d'énergie dynamiques. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez dès aujourd'hui à créer des mangas épiques !

15 outils

xix.ai