Maison
Le modèle TTS open source OmniVoice de Xiaomi permet le clonage sans apprentissage préalable dans plus de 600 langues
Récemment, l'équipe Kaldi de nouvelle génération (k2-fsa) de Xiaomi a officiellement mis en open source OmniVoice, un modèle de synthèse vocale multilingue de grande envergure fonctionnant en mode « zero-shot » et prenant en charge plus de 600 langues. Ce modèle obtient des résultats de pointe dans plusieurs tests de référence clés pour la synthèse en chinois, en anglais et en multilingue, marquant ainsi une avancée significative dans ce domaine.
Des performances de pointe : un taux d'erreur sur les mots (WER) en chinois aussi bas que 0,84 %, surpassant les modèles courants lors des tests multilingues
Sur l'ensemble de tests chinois Seed-TTS, OmniVoice atteint un taux d'erreur sur les mots (WER) remarquablement bas, à seulement 0,84 %. Lors des évaluations multilingues, ses scores de similarité (SIM-o) et de WER surpassent ceux de modèles commerciaux bien connus tels que ElevenLabs v2 et MiniMax, démontrant un naturel et une clarté exceptionnels de la parole.

Inférence ultra-rapide : un RTF aussi bas que 0,025, 40 fois plus rapide que le temps réel
OmniVoice affiche un facteur temps réel (RTF) aussi bas que 0,025, ce qui signifie que sa vitesse de synthèse dépasse largement les exigences en temps réel. Ce gain d'efficacité considérable permet la génération rapide de discours longs dans des applications pratiques, améliorant ainsi considérablement l'expérience utilisateur.
Innovation architecturale fondamentale : conception discrète non autorégressive inspirée des modèles de diffusion
OmniVoice utilise une architecture non autorégressive discrète novatrice inspirée des modèles de langage par diffusion. Il génère de la parole à partir de texte en une seule étape, en contournant les tokens sémantiques intermédiaires traditionnels. Cette conception rationalisée simplifie le pipeline tout en conservant une qualité de sortie élevée. Une stratégie de masquage aléatoire du livre de codes complet, combinée à une initialisation par un LLM pré-entraîné, renforce encore l'efficacité de l'entraînement et améliore la clarté et l'intelligibilité de la parole finale.
Clonage et personnalisation flexibles de la voix : fonctionne avec seulement 3 à 10 secondes d'audio
Le modèle prend en charge le clonage vocal de haute qualité sans apprentissage préalable (zero-shot) en utilisant seulement 3 à 10 secondes d'audio de référence. Les utilisateurs peuvent également personnaliser les attributs de la voix via des invites en langage naturel, en spécifiant le sexe, l'âge, la hauteur de voix, l'accent, le dialecte et même des effets spéciaux comme le chuchotement.
Prise en charge des symboles non linguistiques et contrôle précis de la prononciation
OmniVoice peut traiter des symboles non linguistiques, tels que [rire], et prend en charge la correction de la prononciation via le pinyin ou des symboles phonétiques. Cela le rend particulièrement adapté à la synthèse précise en chinois et dans divers dialectes.
Prise en charge de plus de 600 langues : contribution à la préservation numérique des langues minoritaires et en voie de disparition
L'un des principaux atouts d'OmniVoice réside dans sa couverture linguistique étendue, prenant efficacement en charge à la fois les langues majeures et de nombreuses langues disposant de peu de ressources. Pour les langues minoritaires et en voie de disparition, il peut générer une parole de haute qualité avec un minimum d'échantillons de données, offrant ainsi un potentiel significatif pour la préservation numérique des langues et la protection culturelle.
Le code et les modèles pré-entraînés d'OmniVoice sont désormais disponibles en open source sur GitHub et Hugging Face, ce qui permet aux développeurs de le déployer localement ou de l'intégrer dans des applications. AIbase continuera à suivre les retours de la communauté et les cas d'utilisation concrets. Les développeurs sont encouragés à partager leurs expériences.
Lien vers le projet : https://github.com/k2-fsa/OmniVoice
Article connexe
Reliance dévoile un plan d'investissement de 110 milliards de dollars dans l'IA alors que l'Inde accélère sa transition technologique
Mukesh Ambani, le président milliardaire du conglomérat indien Reliance, a annoncé jeudi un plan de 10 000 milliards de roupies (environ 110 milliards de dollars) visant à mettre en place une infrastr
Zhiyuan WITA met fin à son projet d'interaction avec des robots « nus » en déposant sa première demande d'agrément
Le secteur de l'intelligence incarnée a franchi une étape importante. Selon la dernière annonce de l'Administration du cyberespace de Shanghai, le grand modèle WITA développé par Zhiyuan a mené à bien
Une étude anthropologique établit un lien entre les contenus générés par l'IA et une diminution de la réflexion humaine
Lorsque vous voyez l'IA produire instantanément un code ou un document bien structuré et d'une logique claire, êtes-vous tenté de lui faire confiance sans y réfléchir à deux fois ? Selon AIbase, Anthr
Recommandations de sujets spéciaux liés
commentaires (0)
Récemment, l'équipe Kaldi de nouvelle génération (k2-fsa) de Xiaomi a officiellement mis en open source OmniVoice, un modèle de synthèse vocale multilingue de grande envergure fonctionnant en mode « zero-shot » et prenant en charge plus de 600 langues. Ce modèle obtient des résultats de pointe dans plusieurs tests de référence clés pour la synthèse en chinois, en anglais et en multilingue, marquant ainsi une avancée significative dans ce domaine.
Des performances de pointe : un taux d'erreur sur les mots (WER) en chinois aussi bas que 0,84 %, surpassant les modèles courants lors des tests multilingues
Sur l'ensemble de tests chinois Seed-TTS, OmniVoice atteint un taux d'erreur sur les mots (WER) remarquablement bas, à seulement 0,84 %. Lors des évaluations multilingues, ses scores de similarité (SIM-o) et de WER surpassent ceux de modèles commerciaux bien connus tels que ElevenLabs v2 et MiniMax, démontrant un naturel et une clarté exceptionnels de la parole.

Inférence ultra-rapide : un RTF aussi bas que 0,025, 40 fois plus rapide que le temps réel
OmniVoice affiche un facteur temps réel (RTF) aussi bas que 0,025, ce qui signifie que sa vitesse de synthèse dépasse largement les exigences en temps réel. Ce gain d'efficacité considérable permet la génération rapide de discours longs dans des applications pratiques, améliorant ainsi considérablement l'expérience utilisateur.
Innovation architecturale fondamentale : conception discrète non autorégressive inspirée des modèles de diffusion
OmniVoice utilise une architecture non autorégressive discrète novatrice inspirée des modèles de langage par diffusion. Il génère de la parole à partir de texte en une seule étape, en contournant les tokens sémantiques intermédiaires traditionnels. Cette conception rationalisée simplifie le pipeline tout en conservant une qualité de sortie élevée. Une stratégie de masquage aléatoire du livre de codes complet, combinée à une initialisation par un LLM pré-entraîné, renforce encore l'efficacité de l'entraînement et améliore la clarté et l'intelligibilité de la parole finale.
Clonage et personnalisation flexibles de la voix : fonctionne avec seulement 3 à 10 secondes d'audio
Le modèle prend en charge le clonage vocal de haute qualité sans apprentissage préalable (zero-shot) en utilisant seulement 3 à 10 secondes d'audio de référence. Les utilisateurs peuvent également personnaliser les attributs de la voix via des invites en langage naturel, en spécifiant le sexe, l'âge, la hauteur de voix, l'accent, le dialecte et même des effets spéciaux comme le chuchotement.
Prise en charge des symboles non linguistiques et contrôle précis de la prononciation
OmniVoice peut traiter des symboles non linguistiques, tels que [rire], et prend en charge la correction de la prononciation via le pinyin ou des symboles phonétiques. Cela le rend particulièrement adapté à la synthèse précise en chinois et dans divers dialectes.
Prise en charge de plus de 600 langues : contribution à la préservation numérique des langues minoritaires et en voie de disparition
L'un des principaux atouts d'OmniVoice réside dans sa couverture linguistique étendue, prenant efficacement en charge à la fois les langues majeures et de nombreuses langues disposant de peu de ressources. Pour les langues minoritaires et en voie de disparition, il peut générer une parole de haute qualité avec un minimum d'échantillons de données, offrant ainsi un potentiel significatif pour la préservation numérique des langues et la protection culturelle.
Le code et les modèles pré-entraînés d'OmniVoice sont désormais disponibles en open source sur GitHub et Hugging Face, ce qui permet aux développeurs de le déployer localement ou de l'intégrer dans des applications. AIbase continuera à suivre les retours de la communauté et les cas d'utilisation concrets. Les développeurs sont encouragés à partager leurs expériences.
Lien vers le projet : https://github.com/k2-fsa/OmniVoice
Reliance dévoile un plan d'investissement de 110 milliards de dollars dans l'IA alors que l'Inde accélère sa transition technologique
Mukesh Ambani, le président milliardaire du conglomérat indien Reliance, a annoncé jeudi un plan de 10 000 milliards de roupies (environ 110 milliards de dollars) visant à mettre en place une infrastr
Zhiyuan WITA met fin à son projet d'interaction avec des robots « nus » en déposant sa première demande d'agrément
Le secteur de l'intelligence incarnée a franchi une étape importante. Selon la dernière annonce de l'Administration du cyberespace de Shanghai, le grand modèle WITA développé par Zhiyuan a mené à bien
Une étude anthropologique établit un lien entre les contenus générés par l'IA et une diminution de la réflexion humaine
Lorsque vous voyez l'IA produire instantanément un code ou un document bien structuré et d'une logique claire, êtes-vous tenté de lui faire confiance sans y réfléchir à deux fois ? Selon AIbase, Anthr











