Maison
Fish Audio lance S2 : un modèle open source permettant de contrôler les émotions au niveau des mots

Fish Audio a officiellement lancé son nouveau modèle de synthèse vocale, S2, qui marque une avancée significative en matière d'expressivité et de contrôlabilité pour la technologie de synthèse vocale open source.
Baptisé Fish Audio S2, ce modèle met l'accent sur un contrôle émotionnel puissant. Les utilisateurs peuvent ajuster avec précision la prosodie et les émotions à l'aide d'instructions en langage naturel. En insérant des balises telles que [rire], [chuchotement] ou [super content], ou même en utilisant des descriptions libres telles que [ton de diffusion professionnel] ou [hausser le ton], il permet un contrôle précis au niveau des mots pour générer une parole très expressive et naturellement vivante.
Principales caractéristiques :
Entièrement open source : les poids du modèle, le code de réglage fin et le moteur d'inférence en streaming basé sur SGLang sont tous accessibles au public sur GitHub et Hugging Face. S2-Pro est la version phare avec environ 4,4 milliards de paramètres. Latence ultra-faible : la latence d'inférence est inférieure à 150 millisecondes, ce qui le rend idéal pour les applications en temps réel telles que les chatbots et les streamers virtuels. Prise en charge native de plusieurs locuteurs : il peut traiter plusieurs locuteurs en une seule inférence, gérant les tours de parole, les interruptions et l'expression émotionnelle naturelle tout en conservant une qualité vocale constante sans traitement supplémentaire.Fish Audio indique que S2 a été entraîné sur environ 10 millions d'heures de données audio couvrant près de 50 langues. Grâce à l'alignement par apprentissage par renforcement et à une architecture autorégressive double, il fait preuve d'un niveau de naturel et d'expressivité de pointe dans de nombreux benchmarks. Il est considéré comme l'un des systèmes de synthèse vocale les plus intelligents sur le plan émotionnel, qu'ils soient open source ou propriétaires. « La véritable liberté linguistique commence maintenant », a annoncé Fish Audio, marquant l'arrivée d'une synthèse vocale IA dotée d'émotions et d'une personnalité authentiques.
GitHub : https://github.com/fishaudio/fish-speech/
HuggingFace : https://huggingface.co/fishaudio/s2-pro/
Article connexe
La première série dramatique AIGC de Yaoke Media, « Le mystère du bronze dans le Qinling », sort aujourd'hui avec des rôles principaux interprétés par des personnages générés par l'IA
C'est aujourd'hui que sort officiellement la mini-série fantastique et policière en IA générée (AIGC) de Yaoke Media, intitulée « L'histoire secrète du bronze de Qinling ». Mettant en s
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Recommandations de sujets spéciaux liés
commentaires (0)

Fish Audio a officiellement lancé son nouveau modèle de synthèse vocale, S2, qui marque une avancée significative en matière d'expressivité et de contrôlabilité pour la technologie de synthèse vocale open source.
Baptisé Fish Audio S2, ce modèle met l'accent sur un contrôle émotionnel puissant. Les utilisateurs peuvent ajuster avec précision la prosodie et les émotions à l'aide d'instructions en langage naturel. En insérant des balises telles que [rire], [chuchotement] ou [super content], ou même en utilisant des descriptions libres telles que [ton de diffusion professionnel] ou [hausser le ton], il permet un contrôle précis au niveau des mots pour générer une parole très expressive et naturellement vivante.
Principales caractéristiques :
Entièrement open source : les poids du modèle, le code de réglage fin et le moteur d'inférence en streaming basé sur SGLang sont tous accessibles au public sur GitHub et Hugging Face. S2-Pro est la version phare avec environ 4,4 milliards de paramètres. Latence ultra-faible : la latence d'inférence est inférieure à 150 millisecondes, ce qui le rend idéal pour les applications en temps réel telles que les chatbots et les streamers virtuels. Prise en charge native de plusieurs locuteurs : il peut traiter plusieurs locuteurs en une seule inférence, gérant les tours de parole, les interruptions et l'expression émotionnelle naturelle tout en conservant une qualité vocale constante sans traitement supplémentaire.Fish Audio indique que S2 a été entraîné sur environ 10 millions d'heures de données audio couvrant près de 50 langues. Grâce à l'alignement par apprentissage par renforcement et à une architecture autorégressive double, il fait preuve d'un niveau de naturel et d'expressivité de pointe dans de nombreux benchmarks. Il est considéré comme l'un des systèmes de synthèse vocale les plus intelligents sur le plan émotionnel, qu'ils soient open source ou propriétaires. « La véritable liberté linguistique commence maintenant », a annoncé Fish Audio, marquant l'arrivée d'une synthèse vocale IA dotée d'émotions et d'une personnalité authentiques.
GitHub : https://github.com/fishaudio/fish-speech/
HuggingFace : https://huggingface.co/fishaudio/s2-pro/
La première série dramatique AIGC de Yaoke Media, « Le mystère du bronze dans le Qinling », sort aujourd'hui avec des rôles principaux interprétés par des personnages générés par l'IA
C'est aujourd'hui que sort officiellement la mini-série fantastique et policière en IA générée (AIGC) de Yaoke Media, intitulée « L'histoire secrète du bronze de Qinling ». Mettant en s
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié











