Maison
Alibaba Tongyi dévoile un modèle vocal avec commande en langage naturel « FreeStyle »
Aujourd'hui, l'équipe Speech Team d'Alibaba Tongyi Lab a présenté deux modèles révolutionnaires de génération vocale : Fun-CosyVoice3.5 et Fun-AudioGen-VD. La caractéristique distinctive de ces modèles est leur prise en charge des commandes « FreeStyle ». Au lieu de procéder à des réglages complexes des paramètres, les utilisateurs peuvent contrôler avec précision les styles d'expression vocale ou créer des scènes audio complexes à partir de zéro à l'aide de descriptions simples en langage naturel.

Chaque modèle a des objectifs distincts :
Fun-CosyVoice3.5 : réplication multilingue et contrôle précis
Cette version améliorée de CosyVoice réalise des avancées majeures dans la compréhension des nuances de l'expression vocale.
Génération pilotée par commande : les utilisateurs peuvent saisir des instructions telles que « parler avec plus d'assurance » ou « ralentir avec des variations émotionnelles » pour des ajustements vocaux en temps réel.
Extension linguistique : la prise en charge supplémentaire du thaï, de l'indonésien, du portugais et du vietnamien permet de maintenir des performances de pointe en matière de précision de transcription (WER) et de similitude vocale dans 13 langues.
Optimisation des caractères rares : une formation spécialisée a permis de réduire le taux d'erreur pour les caractères peu courants de 15,2 % à 5,3 %.
Amélioration des performances : la latence du premier paquet a été réduite de 35 %, ce qui améliore considérablement la fluidité des interactions en temps réel.
Fun-AudioGen-VD : conception sonore complète
Ce modèle agit comme un « directeur audio », générant un son intégré combinant « personnages + environnements ».
Personnalisation de la voix : spécifiez le sexe, l'âge, l'accent et des caractéristiques détaillées telles que les voix « rauques, graves ou basses ».
Émotions et jeux de rôle : simule des rôles tels que ceux d'agents du service clientèle, de présentateurs et d'enfants, et transmet même des états complexes tels que « calme extérieur et tension intérieure ».
Environnements immersifs : ajoute des sons d'arrière-plan (chaos du champ de bataille, murmures dans un café) et des effets spatiaux (réverbération dans une cathédrale, acoustique sous-marine) pour une simulation spatiale complète.
Tongyi Lab note que ces modèles démocratiseront la création de voix de haute qualité, offrant un puissant soutien IA pour le podcasting, le développement de jeux et la post-production cinématographique.
Article connexe
Conntour lève 7 millions de dollars auprès de General Catalyst et Y Combinator pour sa solution de recherche vidéo de sécurité basée sur l'IA
Le secteur des technologies de surveillance fait actuellement l'objet d'une attention particulière, mais pas pour les meilleures raisons. Des controverses ont éclaté après que l'agence américaine de l
Le premier matériel d'IA d'Apple dévoilé : les AirPods équipés d'une caméra entrent en phase de test
Les ambitions d'Apple en matière de matériel d'IA se précisent. Le célèbre journaliste spécialisé dans les technologies Mark Gurman rapporte que les AirPods tant attendus, dotés de caméras i
iOS 27 lancera une application Siri autonome dotée d'une interface de chatbot
À moins d'un mois de la Conférence mondiale des développeurs (WWDC) 2026 d'Apple, le célèbre journaliste spécialisé dans les technologies Mark Gurman a dévoilé de nouvelles informations conc
Recommandations de sujets spéciaux liés
commentaires (0)
Aujourd'hui, l'équipe Speech Team d'Alibaba Tongyi Lab a présenté deux modèles révolutionnaires de génération vocale : Fun-CosyVoice3.5 et Fun-AudioGen-VD. La caractéristique distinctive de ces modèles est leur prise en charge des commandes « FreeStyle ». Au lieu de procéder à des réglages complexes des paramètres, les utilisateurs peuvent contrôler avec précision les styles d'expression vocale ou créer des scènes audio complexes à partir de zéro à l'aide de descriptions simples en langage naturel.

Chaque modèle a des objectifs distincts :
Fun-CosyVoice3.5 : réplication multilingue et contrôle précis
Cette version améliorée de CosyVoice réalise des avancées majeures dans la compréhension des nuances de l'expression vocale.
Génération pilotée par commande : les utilisateurs peuvent saisir des instructions telles que « parler avec plus d'assurance » ou « ralentir avec des variations émotionnelles » pour des ajustements vocaux en temps réel.
Extension linguistique : la prise en charge supplémentaire du thaï, de l'indonésien, du portugais et du vietnamien permet de maintenir des performances de pointe en matière de précision de transcription (WER) et de similitude vocale dans 13 langues.
Optimisation des caractères rares : une formation spécialisée a permis de réduire le taux d'erreur pour les caractères peu courants de 15,2 % à 5,3 %.
Amélioration des performances : la latence du premier paquet a été réduite de 35 %, ce qui améliore considérablement la fluidité des interactions en temps réel.
Fun-AudioGen-VD : conception sonore complète
Ce modèle agit comme un « directeur audio », générant un son intégré combinant « personnages + environnements ».
Personnalisation de la voix : spécifiez le sexe, l'âge, l'accent et des caractéristiques détaillées telles que les voix « rauques, graves ou basses ».
Émotions et jeux de rôle : simule des rôles tels que ceux d'agents du service clientèle, de présentateurs et d'enfants, et transmet même des états complexes tels que « calme extérieur et tension intérieure ».
Environnements immersifs : ajoute des sons d'arrière-plan (chaos du champ de bataille, murmures dans un café) et des effets spatiaux (réverbération dans une cathédrale, acoustique sous-marine) pour une simulation spatiale complète.
Tongyi Lab note que ces modèles démocratiseront la création de voix de haute qualité, offrant un puissant soutien IA pour le podcasting, le développement de jeux et la post-production cinématographique.
Conntour lève 7 millions de dollars auprès de General Catalyst et Y Combinator pour sa solution de recherche vidéo de sécurité basée sur l'IA
Le secteur des technologies de surveillance fait actuellement l'objet d'une attention particulière, mais pas pour les meilleures raisons. Des controverses ont éclaté après que l'agence américaine de l
Le premier matériel d'IA d'Apple dévoilé : les AirPods équipés d'une caméra entrent en phase de test
Les ambitions d'Apple en matière de matériel d'IA se précisent. Le célèbre journaliste spécialisé dans les technologies Mark Gurman rapporte que les AirPods tant attendus, dotés de caméras i
iOS 27 lancera une application Siri autonome dotée d'une interface de chatbot
À moins d'un mois de la Conférence mondiale des développeurs (WWDC) 2026 d'Apple, le célèbre journaliste spécialisé dans les technologies Mark Gurman a dévoilé de nouvelles informations conc











