Lar
A Fish Audio lança o S2: modelo de código aberto permite o controle de emoções ao nível da palavra

A Fish Audio lançou oficialmente seu novo modelo de conversão de texto em fala, o S2, representando um avanço significativo em termos de expressividade e controlabilidade para a tecnologia TTS de código aberto.
Batizado de Fish Audio S2, este modelo prioriza um controle emocional poderoso. Os usuários podem fazer ajustes precisos na prosódia e na emoção usando instruções em linguagem natural. Ao inserir tags como [risada], [sussurro] ou [superfeliz], ou mesmo usando descrições livres como [tom de transmissão profissional] ou [aumentar o tom], ele permite um controle preciso, ao nível da palavra, para gerar uma fala altamente expressiva e naturalmente vívida.
Os principais recursos incluem:
Totalmente de código aberto: os pesos do modelo, o código de ajuste fino e o mecanismo de inferência de streaming baseado em SGLang estão todos disponíveis publicamente no GitHub e no Hugging Face. O S2-Pro é a versão principal, com aproximadamente 4,4 bilhões de parâmetros. Latência ultrabaixa: a latência de inferência é inferior a 150 milissegundos, tornando-o ideal para aplicações em tempo real, como chatbots e streamers virtuais. Suporte nativo a múltiplos falantes: ele pode processar vários falantes em uma única inferência, lidando com turnos de conversação, interrupções e transmissão emocional natural, mantendo a qualidade de voz consistente sem processamento extra.A Fish Audio informa que o S2 foi treinado com cerca de 10 milhões de horas de dados de áudio abrangendo quase 50 idiomas. Utilizando alinhamento de aprendizado por reforço e uma arquitetura autorregressiva dupla, ele demonstra naturalidade e expressividade de ponta em vários benchmarks. É considerado um dos sistemas de TTS mais emocionalmente inteligentes disponíveis, sejam eles de código aberto ou proprietários. “A verdadeira liberdade linguística começa agora”, anunciou a Fish Audio, marcando a chegada da fala com IA com emoção e personalidade genuínas.
GitHub: https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
Artigo relacionado
A IA experimental da Anthropic, Claude, conclui negociações e transações em um teste de comércio eletrônico
À medida que a inteligência artificial avança rapidamente, a Anthropic lançou discretamente, na última sexta-feira, um experimento interno chamado “Projeto Deal”, demonstrando o potencial da IA no com
DeepSeek Code pronto para ser lançado
À medida que a tecnologia de IA avança, a DeepSeek encontra-se em um momento emocionante. A empresa de IA revelou recentemente que garantiu mais de 70 bilhões de yuans em financiamento. A direção enfa
O Grok de Musk: 1,5 trilhão de parâmetros e absorção de código de cursor — uma revolução ou um blefe?
Elon Musk finalmente está entrando em ação.Na corrida pela programação de IA, a OpenAI e a Anthropic estão acelerando, enquanto a xAI parece estar ficando para trás. Musk já declarou várias vezes seu
Recomendações de tópicos especiais relacionados
Comentários (0)

A Fish Audio lançou oficialmente seu novo modelo de conversão de texto em fala, o S2, representando um avanço significativo em termos de expressividade e controlabilidade para a tecnologia TTS de código aberto.
Batizado de Fish Audio S2, este modelo prioriza um controle emocional poderoso. Os usuários podem fazer ajustes precisos na prosódia e na emoção usando instruções em linguagem natural. Ao inserir tags como [risada], [sussurro] ou [superfeliz], ou mesmo usando descrições livres como [tom de transmissão profissional] ou [aumentar o tom], ele permite um controle preciso, ao nível da palavra, para gerar uma fala altamente expressiva e naturalmente vívida.
Os principais recursos incluem:
Totalmente de código aberto: os pesos do modelo, o código de ajuste fino e o mecanismo de inferência de streaming baseado em SGLang estão todos disponíveis publicamente no GitHub e no Hugging Face. O S2-Pro é a versão principal, com aproximadamente 4,4 bilhões de parâmetros. Latência ultrabaixa: a latência de inferência é inferior a 150 milissegundos, tornando-o ideal para aplicações em tempo real, como chatbots e streamers virtuais. Suporte nativo a múltiplos falantes: ele pode processar vários falantes em uma única inferência, lidando com turnos de conversação, interrupções e transmissão emocional natural, mantendo a qualidade de voz consistente sem processamento extra.A Fish Audio informa que o S2 foi treinado com cerca de 10 milhões de horas de dados de áudio abrangendo quase 50 idiomas. Utilizando alinhamento de aprendizado por reforço e uma arquitetura autorregressiva dupla, ele demonstra naturalidade e expressividade de ponta em vários benchmarks. É considerado um dos sistemas de TTS mais emocionalmente inteligentes disponíveis, sejam eles de código aberto ou proprietários. “A verdadeira liberdade linguística começa agora”, anunciou a Fish Audio, marcando a chegada da fala com IA com emoção e personalidade genuínas.
GitHub: https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
A IA experimental da Anthropic, Claude, conclui negociações e transações em um teste de comércio eletrônico
À medida que a inteligência artificial avança rapidamente, a Anthropic lançou discretamente, na última sexta-feira, um experimento interno chamado “Projeto Deal”, demonstrando o potencial da IA no com
DeepSeek Code pronto para ser lançado
À medida que a tecnologia de IA avança, a DeepSeek encontra-se em um momento emocionante. A empresa de IA revelou recentemente que garantiu mais de 70 bilhões de yuans em financiamento. A direção enfa
O Grok de Musk: 1,5 trilhão de parâmetros e absorção de código de cursor — uma revolução ou um blefe?
Elon Musk finalmente está entrando em ação.Na corrida pela programação de IA, a OpenAI e a Anthropic estão acelerando, enquanto a xAI parece estar ficando para trás. Musk já declarou várias vezes seu











