Дом
Fish Audio представляет S2: модель с открытым исходным кодом, позволяющая управлять эмоциями на уровне отдельных слов

Компания Fish Audio официально представила свою новую модель преобразования текста в речь S2, которая стала значительным шагом вперед в плане выразительности и управляемости для технологий TTS с открытым исходным кодом.
Модель под названием Fish Audio S2 уделяет приоритетное внимание мощному контролю эмоций. Пользователи могут выполнять точную настройку просодии и эмоций с помощью команд на естественном языке. Вставляя теги, такие как [laugh], [whisper] или [super happy], или даже используя описания в свободной форме, например [professional broadcast tone] или [pitch up], можно осуществлять точное управление на уровне отдельных слов для генерации высоковыразительной и естественно-живой речи.
Ключевые особенности:
Полностью открытый исходный код: веса модели, код тонкой настройки и потоковый механизм вывода на основе SGLang доступны для общего пользования на GitHub и Hugging Face. S2-Pro — это флагманская версия с примерно 4,4 миллиардами параметров. Сверхнизкая задержка: задержка инференции составляет менее 150 миллисекунд, что делает ее идеальной для приложений реального времени, таких как чат-боты и виртуальные стримеры. Встроенная поддержка нескольких говорящих: она может обрабатывать нескольких говорящих в рамках одной инференции, управляя ходами разговора, перебиваниями и естественной передачей эмоций, сохраняя при этом стабильное качество голоса без дополнительной обработки.Fish Audio сообщает, что S2 был обучен на примерно 10 миллионах часов аудиоданных, охватывающих почти 50 языков. Используя выравнивание с помощью обучения с подкреплением и двойную авторегрессионную архитектуру, он демонстрирует ведущую естественность и выразительность в нескольких тестах. Он считается одной из самых эмоционально интеллектуальных систем TTS, доступных как с открытым исходным кодом, так и проприетарных. «Настоящая лингвистическая свобода начинается сейчас», — объявила Fish Audio, отметив появление речи ИИ с подлинными эмоциями и индивидуальностью.
GitHub:https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
Связанная статья
Snowflake инвестирует более 600 млн долларов в разработку специализированных чипов для AWS в рамках продвижения ИИ в корпоративном секторе
Snowflake, гигант в сфере облачных данных, объявил о планах инвестировать более 600 миллионов долларов в течение следующих шести лет в приобретение процессоров серии Graviton и ускорителей искусственн
China Telecom инвестирует в Mianbi Intelligence, увеличив капитал до 713 000 юаней для развития больших языковых моделей и инфраструктуры обработки данных
«Национальная команда» и ведущий специалист из Университета Цинхуа в сфере крупных моделей углубляют свое стратегическое сотрудничество. 1 марта 2026 года, согласно последним данным о регистрации пред
Группа Taotian ускоряет реструктуризацию с ориентацией на искусственный интеллект и предоставляет стажерам бесплатные квоты на токены
Группа TaoTian недавно представила «План повышения производительности с помощью ИИ», призванный ускорить интеграцию технологий искусственного интеллекта в операционную деятельность в сфере электронной
Рекомендации по связанным специальным темам
Комментарии (0)

Компания Fish Audio официально представила свою новую модель преобразования текста в речь S2, которая стала значительным шагом вперед в плане выразительности и управляемости для технологий TTS с открытым исходным кодом.
Модель под названием Fish Audio S2 уделяет приоритетное внимание мощному контролю эмоций. Пользователи могут выполнять точную настройку просодии и эмоций с помощью команд на естественном языке. Вставляя теги, такие как [laugh], [whisper] или [super happy], или даже используя описания в свободной форме, например [professional broadcast tone] или [pitch up], можно осуществлять точное управление на уровне отдельных слов для генерации высоковыразительной и естественно-живой речи.
Ключевые особенности:
Полностью открытый исходный код: веса модели, код тонкой настройки и потоковый механизм вывода на основе SGLang доступны для общего пользования на GitHub и Hugging Face. S2-Pro — это флагманская версия с примерно 4,4 миллиардами параметров. Сверхнизкая задержка: задержка инференции составляет менее 150 миллисекунд, что делает ее идеальной для приложений реального времени, таких как чат-боты и виртуальные стримеры. Встроенная поддержка нескольких говорящих: она может обрабатывать нескольких говорящих в рамках одной инференции, управляя ходами разговора, перебиваниями и естественной передачей эмоций, сохраняя при этом стабильное качество голоса без дополнительной обработки.Fish Audio сообщает, что S2 был обучен на примерно 10 миллионах часов аудиоданных, охватывающих почти 50 языков. Используя выравнивание с помощью обучения с подкреплением и двойную авторегрессионную архитектуру, он демонстрирует ведущую естественность и выразительность в нескольких тестах. Он считается одной из самых эмоционально интеллектуальных систем TTS, доступных как с открытым исходным кодом, так и проприетарных. «Настоящая лингвистическая свобода начинается сейчас», — объявила Fish Audio, отметив появление речи ИИ с подлинными эмоциями и индивидуальностью.
GitHub:https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
Snowflake инвестирует более 600 млн долларов в разработку специализированных чипов для AWS в рамках продвижения ИИ в корпоративном секторе
Snowflake, гигант в сфере облачных данных, объявил о планах инвестировать более 600 миллионов долларов в течение следующих шести лет в приобретение процессоров серии Graviton и ускорителей искусственн
China Telecom инвестирует в Mianbi Intelligence, увеличив капитал до 713 000 юаней для развития больших языковых моделей и инфраструктуры обработки данных
«Национальная команда» и ведущий специалист из Университета Цинхуа в сфере крупных моделей углубляют свое стратегическое сотрудничество. 1 марта 2026 года, согласно последним данным о регистрации пред
Группа Taotian ускоряет реструктуризацию с ориентацией на искусственный интеллект и предоставляет стажерам бесплатные квоты на токены
Группа TaoTian недавно представила «План повышения производительности с помощью ИИ», призванный ускорить интеграцию технологий искусственного интеллекта в операционную деятельность в сфере электронной











