Maison
Xiaomi dévoile MiMo-V2-TTS, son modèle d'IA développé en interne pour la synthèse vocale tenant compte des dialectes et des émotions
Xiaomi a officiellement lancé son modèle de synthèse vocale à grande échelle développé en interne, MiMo-V2-TTS, qui représente une avancée majeure en matière de génération vocale hautement contrôlable et expressive. S'appuyant sur l'Audio Tokenizer propriétaire de Xiaomi et sur un cadre de modélisation conjointe parole-texte à livres de codes multiples, ce modèle tire parti d'un pré-entraînement intensif sur des centaines de millions d'heures de données vocales pour permettre des ajustements précis, allant du style général aux nuances émotionnelles les plus subtiles. Contrairement aux systèmes TTS conventionnels, MiMo-V2-TTS est capable d'effectuer des changements de ton et des variations émotionnelles au sein d'une même phrase, imitant ainsi de près le rythme naturel de la parole humaine et prenant en charge la synthèse de chansons avec une hauteur et un rythme précis. Sur le plan technique, Xiaomi a intégré un apprentissage par renforcement multidimensionnel afin d'équilibrer la stabilité et l'expressivité du résultat. Le modèle reconnaît intelligemment les indices textuels tels que la ponctuation, les marqueurs d'intonation et les indicateurs d'accentuation, les traduisant en expressions vocales appropriées sans nécessiter d'annotation manuelle supplémentaire. De plus, le modèle fait preuve d'une forte adaptabilité interrégionale, prenant en charge de multiples dialectes, notamment le mandarin du nord-est, le sichuanais, le henanais, le cantonais et les accents taïwanais, et est capable de performances vocales adaptées à chaque personnage.
Étape clé de la feuille de route technologique vocale de Xiaomi, MiMo-V2-TTS élargira encore la prise en charge multilingue et s'intégrera étroitement aux capacités de compréhension multimodale de MiMo-V2-Omni. Cette évolution, de la synthèse vocale autonome vers une perception et une expression multimodales coordonnées, marque un tournant pour les agents IA : ils passent d'une interaction sémantique basique à une interaction homme-machine plus personnalisée et plus riche en émotions, améliorant considérablement l'expérience utilisateur dans des applications telles que les cabines intelligentes et les maisons connectées.

Article connexe
Alibaba Tuhao M890 fait ses débuts avec des performances triplées, marquant l’avènement d’une ère d’agents full-stack pour les modèles d’inference basés sur le cloud et les puces.
Le 20 mai 2026, lors du sommet Alibaba Cloud, la société a annoncé l’achèvement d’une mise à niveau complet de son système technologique, conçu pour l’ère des agents intelligents. Cette transformation a réorganisé l’ensemble de la chaîne de traitemen
Pentium 4 Revival : Un processeur vieux de 20 ans permet d’exécuter le modèle Meta Llama 3 Large
Récemment, la chaîne technique YouTube Fully Buffered a mené une expérience impressionnante et poussée : elle a réussi à faire fonctionner le dernier modèle de grande taille de Meta, Llama 3.2 3B, sur un processeur Pentium 4 641, un circuit électroni
Le district de Shangcheng à Hangzhou lance les premières “Dix Mesures d’Or” audiovisuelles de Zhejiang dans le cadre du programme AIGC, avec la création d’un fonds industriel de 5 milliards de yuans.
Le 16ème, la Conférence sur l’écosystème d’innovation de l’industrie audiovisuelle AIGC s’est tenue dans le district de Shangcheng à Hangzhou. Lors de cet événement, la province a dévoilé sa première politique spécifique pour l’industrie audiovisuell
Recommandations de sujets spéciaux liés
commentaires (0)
Xiaomi a officiellement lancé son modèle de synthèse vocale à grande échelle développé en interne, MiMo-V2-TTS, qui représente une avancée majeure en matière de génération vocale hautement contrôlable et expressive. S'appuyant sur l'Audio Tokenizer propriétaire de Xiaomi et sur un cadre de modélisation conjointe parole-texte à livres de codes multiples, ce modèle tire parti d'un pré-entraînement intensif sur des centaines de millions d'heures de données vocales pour permettre des ajustements précis, allant du style général aux nuances émotionnelles les plus subtiles. Contrairement aux systèmes TTS conventionnels, MiMo-V2-TTS est capable d'effectuer des changements de ton et des variations émotionnelles au sein d'une même phrase, imitant ainsi de près le rythme naturel de la parole humaine et prenant en charge la synthèse de chansons avec une hauteur et un rythme précis. Sur le plan technique, Xiaomi a intégré un apprentissage par renforcement multidimensionnel afin d'équilibrer la stabilité et l'expressivité du résultat. Le modèle reconnaît intelligemment les indices textuels tels que la ponctuation, les marqueurs d'intonation et les indicateurs d'accentuation, les traduisant en expressions vocales appropriées sans nécessiter d'annotation manuelle supplémentaire. De plus, le modèle fait preuve d'une forte adaptabilité interrégionale, prenant en charge de multiples dialectes, notamment le mandarin du nord-est, le sichuanais, le henanais, le cantonais et les accents taïwanais, et est capable de performances vocales adaptées à chaque personnage.
Étape clé de la feuille de route technologique vocale de Xiaomi, MiMo-V2-TTS élargira encore la prise en charge multilingue et s'intégrera étroitement aux capacités de compréhension multimodale de MiMo-V2-Omni. Cette évolution, de la synthèse vocale autonome vers une perception et une expression multimodales coordonnées, marque un tournant pour les agents IA : ils passent d'une interaction sémantique basique à une interaction homme-machine plus personnalisée et plus riche en émotions, améliorant considérablement l'expérience utilisateur dans des applications telles que les cabines intelligentes et les maisons connectées.

Alibaba Tuhao M890 fait ses débuts avec des performances triplées, marquant l’avènement d’une ère d’agents full-stack pour les modèles d’inference basés sur le cloud et les puces.
Le 20 mai 2026, lors du sommet Alibaba Cloud, la société a annoncé l’achèvement d’une mise à niveau complet de son système technologique, conçu pour l’ère des agents intelligents. Cette transformation a réorganisé l’ensemble de la chaîne de traitemen
Pentium 4 Revival : Un processeur vieux de 20 ans permet d’exécuter le modèle Meta Llama 3 Large
Récemment, la chaîne technique YouTube Fully Buffered a mené une expérience impressionnante et poussée : elle a réussi à faire fonctionner le dernier modèle de grande taille de Meta, Llama 3.2 3B, sur un processeur Pentium 4 641, un circuit électroni
Le district de Shangcheng à Hangzhou lance les premières “Dix Mesures d’Or” audiovisuelles de Zhejiang dans le cadre du programme AIGC, avec la création d’un fonds industriel de 5 milliards de yuans.
Le 16ème, la Conférence sur l’écosystème d’innovation de l’industrie audiovisuelle AIGC s’est tenue dans le district de Shangcheng à Hangzhou. Lors de cet événement, la province a dévoilé sa première politique spécifique pour l’industrie audiovisuell











