Hogar
Fish Audio lanza el S2: un modelo de código abierto que permite controlar las emociones a nivel de palabra

Fish Audio ha lanzado oficialmente su nuevo modelo de conversión de texto a voz, S2, que supone un importante avance en cuanto a expresividad y controlabilidad para la tecnología TTS de código abierto.
Bajo el nombre de Fish Audio S2, este modelo da prioridad a un potente control emocional. Los usuarios pueden realizar ajustes precisos en la prosodia y la emoción mediante instrucciones en lenguaje natural. Al insertar etiquetas como [risas], [susurro] o [superfeliz], o incluso utilizando descripciones libres como [tono de locución profesional] o [subir el tono], permite un control preciso a nivel de palabra para generar un habla muy expresiva y naturalmente vívida.
Las características principales incluyen:
Código completamente abierto: los pesos del modelo, el código de ajuste fino y el motor de inferencia de streaming basado en SGLang están disponibles públicamente en GitHub y Hugging Face. S2-Pro es la versión insignia con aproximadamente 4400 millones de parámetros. Latencia ultrabaja: la latencia de inferencia es inferior a 150 milisegundos, lo que lo hace ideal para aplicaciones en tiempo real como chatbots y streamers virtuales. Compatibilidad nativa con múltiples hablantes: puede procesar múltiples hablantes en una sola inferencia, gestionando los turnos de conversación, las interrupciones y la transmisión emocional natural, al tiempo que mantiene una calidad de voz consistente sin procesamiento adicional.Fish Audio informa de que S2 se entrenó con aproximadamente 10 millones de horas de datos de audio que abarcan casi 50 idiomas. Utilizando la alineación del aprendizaje por refuerzo y una arquitectura autorregresiva dual, demuestra una naturalidad y expresividad líderes en múltiples pruebas de rendimiento. Se considera uno de los sistemas TTS con mayor inteligencia emocional disponibles, tanto de código abierto como propietarios. «La verdadera libertad lingüística comienza ahora», anunció Fish Audio, marcando la llegada del habla con IA con emoción y personalidad genuinas.
GitHub: https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
Artículo relacionado
Claude, la IA experimental de Anthropic, lleva a cabo negociaciones y transacciones en una prueba de comercio electrónico
A medida que la inteligencia artificial avanza rápidamente, Anthropic puso en marcha discretamente el pasado viernes un experimento interno denominado «Project Deal», en el que se ponía de manifiesto
DeepSeek Code, listo para su lanzamiento
A medida que la tecnología de IA avanza a pasos agigantados, DeepSeek se encuentra en un momento decisivo. La empresa de IA ha revelado recientemente que ha conseguido más de 70 000 millones de yuanes
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

Fish Audio ha lanzado oficialmente su nuevo modelo de conversión de texto a voz, S2, que supone un importante avance en cuanto a expresividad y controlabilidad para la tecnología TTS de código abierto.
Bajo el nombre de Fish Audio S2, este modelo da prioridad a un potente control emocional. Los usuarios pueden realizar ajustes precisos en la prosodia y la emoción mediante instrucciones en lenguaje natural. Al insertar etiquetas como [risas], [susurro] o [superfeliz], o incluso utilizando descripciones libres como [tono de locución profesional] o [subir el tono], permite un control preciso a nivel de palabra para generar un habla muy expresiva y naturalmente vívida.
Las características principales incluyen:
Código completamente abierto: los pesos del modelo, el código de ajuste fino y el motor de inferencia de streaming basado en SGLang están disponibles públicamente en GitHub y Hugging Face. S2-Pro es la versión insignia con aproximadamente 4400 millones de parámetros. Latencia ultrabaja: la latencia de inferencia es inferior a 150 milisegundos, lo que lo hace ideal para aplicaciones en tiempo real como chatbots y streamers virtuales. Compatibilidad nativa con múltiples hablantes: puede procesar múltiples hablantes en una sola inferencia, gestionando los turnos de conversación, las interrupciones y la transmisión emocional natural, al tiempo que mantiene una calidad de voz consistente sin procesamiento adicional.Fish Audio informa de que S2 se entrenó con aproximadamente 10 millones de horas de datos de audio que abarcan casi 50 idiomas. Utilizando la alineación del aprendizaje por refuerzo y una arquitectura autorregresiva dual, demuestra una naturalidad y expresividad líderes en múltiples pruebas de rendimiento. Se considera uno de los sistemas TTS con mayor inteligencia emocional disponibles, tanto de código abierto como propietarios. «La verdadera libertad lingüística comienza ahora», anunció Fish Audio, marcando la llegada del habla con IA con emoción y personalidad genuinas.
GitHub: https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
Claude, la IA experimental de Anthropic, lleva a cabo negociaciones y transacciones en una prueba de comercio electrónico
A medida que la inteligencia artificial avanza rápidamente, Anthropic puso en marcha discretamente el pasado viernes un experimento interno denominado «Project Deal», en el que se ponía de manifiesto
DeepSeek Code, listo para su lanzamiento
A medida que la tecnología de IA avanza a pasos agigantados, DeepSeek se encuentra en un momento decisivo. La empresa de IA ha revelado recientemente que ha conseguido más de 70 000 millones de yuanes
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca











