Fish Audio 推出 S2:開源模型實現詞彙層級的情感控制

Fish Audio 已正式推出其全新的文字轉語音模型 S2,這代表著開源 TTS 技術在表現力與可控性方面取得了一項重大突破。
這款名為 Fish Audio S2 的模型,將強大的情感控制列為首要目標。使用者可透過自然語言指令,對語調與情感進行細緻調整。無論是插入 [laugh]、[whisper] 或 [super happy] 等標籤,抑或使用 [專業播報語調] 或 [提高音高] 等自由描述,皆能實現精準的單字級控制,生成極具表現力且自然生動的語音。
主要特點包括:
完全開源:模型權重、微調程式碼以及基於 SGLang 的串流推論引擎,均已公開發布於 GitHub 和 Hugging Face。 S2-Pro 是旗艦版本,擁有約 44 億個參數。超低延遲:推論延遲低於 150 毫秒,非常適合聊天機器人和虛擬主播等即時應用。原生多講者支援:可在單次推論中處理多位講者,處理對話輪次、插話及自然的情感傳達,同時維持一致的音質,無需額外處理。Fish Audio 表示,S2 是基於涵蓋近 50 種語言、總計約 1,000 萬小時的音訊資料所訓練而成。透過強化學習對齊技術與雙自迴歸架構,該模型在多項基準測試中展現出業界領先的自然度與表現力。無論是開源或專有系統,它都被視為當今最具情感智能的 TTS 系統之一。Fish Audio 宣佈:「真正的語言自由從此刻開始」,標誌著具備真實情感與個性的 AI 語音時代正式來臨。
GitHub:https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
相關文章
小紅書組織重整:柯南出任總裁,成立 AI 主業務部門 Dots 及海外事業部 Rednote
4月30日,小紅書向全體員工發佈內部通告,宣布啟動新一輪組織架構調整。此次變革的核心在於將社群、電商和商業化三大業務線,與公司的技術系統全面整合。 公司新設了名為「Dots」的「AI優先」部門,此舉標誌著小紅書已正式將人工智慧提升為最高戰略優先事項,旨在使其從工具型功能轉型為核心生產力。在人事任命方面,南(丁玲)獲任命為小紅書總裁,負責公司核心業務營運,並直接向執行長邢宇匯報。 各業務領域的負責人
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作
相關專題推薦
評論 (0)
0/500

Fish Audio 已正式推出其全新的文字轉語音模型 S2,這代表著開源 TTS 技術在表現力與可控性方面取得了一項重大突破。
這款名為 Fish Audio S2 的模型,將強大的情感控制列為首要目標。使用者可透過自然語言指令,對語調與情感進行細緻調整。無論是插入 [laugh]、[whisper] 或 [super happy] 等標籤,抑或使用 [專業播報語調] 或 [提高音高] 等自由描述,皆能實現精準的單字級控制,生成極具表現力且自然生動的語音。
主要特點包括:
完全開源:模型權重、微調程式碼以及基於 SGLang 的串流推論引擎,均已公開發布於 GitHub 和 Hugging Face。 S2-Pro 是旗艦版本,擁有約 44 億個參數。超低延遲:推論延遲低於 150 毫秒,非常適合聊天機器人和虛擬主播等即時應用。原生多講者支援:可在單次推論中處理多位講者,處理對話輪次、插話及自然的情感傳達,同時維持一致的音質,無需額外處理。Fish Audio 表示,S2 是基於涵蓋近 50 種語言、總計約 1,000 萬小時的音訊資料所訓練而成。透過強化學習對齊技術與雙自迴歸架構,該模型在多項基準測試中展現出業界領先的自然度與表現力。無論是開源或專有系統,它都被視為當今最具情感智能的 TTS 系統之一。Fish Audio 宣佈:「真正的語言自由從此刻開始」,標誌著具備真實情感與個性的 AI 語音時代正式來臨。
GitHub:https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
小紅書組織重整:柯南出任總裁,成立 AI 主業務部門 Dots 及海外事業部 Rednote
4月30日,小紅書向全體員工發佈內部通告,宣布啟動新一輪組織架構調整。此次變革的核心在於將社群、電商和商業化三大業務線,與公司的技術系統全面整合。 公司新設了名為「Dots」的「AI優先」部門,此舉標誌著小紅書已正式將人工智慧提升為最高戰略優先事項,旨在使其從工具型功能轉型為核心生產力。在人事任命方面,南(丁玲)獲任命為小紅書總裁,負責公司核心業務營運,並直接向執行長邢宇匯報。 各業務領域的負責人
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作





首頁






