Fish AudioがS2を発表:オープンソースモデルにより単語単位の感情制御を実現

Fish Audioは、オープンソースのTTS技術において表現力と制御性の面で大きな飛躍を遂げた、新しいテキスト読み上げモデル「S2」を正式にリリースしました。
「Fish Audio S2」と名付けられたこのモデルは、強力な感情制御を最優先しています。ユーザーは自然言語による指示を用いて、プロソディ(抑揚)や感情をきめ細かく調整できます。[laugh]、[whisper]、[super happy] といったタグを挿入したり、[professional broadcast tone] や [pitch up] といった自由形式の記述を使用したりすることで、単語単位での精密な制御が可能となり、表現力豊かで自然な生き生きとした音声を生成できます。
主な機能は以下の通りです:
完全なオープンソース:モデルの重み、微調整コード、およびSGLangに基づくストリーミング推論エンジンはすべて、GitHubとHugging Faceで公開されています。 S2-Proは、約44億のパラメータを持つフラッグシップバージョンです。超低遅延:推論遅延は150ミリ秒未満であり、チャットボットやバーチャルストリーマーなどのリアルタイムアプリケーションに最適です。ネイティブのマルチスピーカー対応:単一の推論で複数の話者を処理でき、会話のターンや割り込み、自然な感情表現を処理しながら、追加処理なしで一貫した音声品質を維持します。Fish Audioによると、S2は約50言語に及ぶ約1,000万時間の音声データを用いて学習されました。強化学習によるアライメントとデュアル自己回帰アーキテクチャを活用し、複数のベンチマークにおいて業界トップクラスの自然さと表現力を発揮しています。オープンソース・プロプライエタリを問わず、現在利用可能なTTSシステムの中で最も感情表現に優れたシステムの一つとされています。「真の言語的自由が今、始まる」とFish Audioは発表し、本物の感情と個性を備えたAI音声の到来を告げました。
GitHub:https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
関連記事
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
関連特集おすすめ
コメント (0)
0/500

Fish Audioは、オープンソースのTTS技術において表現力と制御性の面で大きな飛躍を遂げた、新しいテキスト読み上げモデル「S2」を正式にリリースしました。
「Fish Audio S2」と名付けられたこのモデルは、強力な感情制御を最優先しています。ユーザーは自然言語による指示を用いて、プロソディ(抑揚)や感情をきめ細かく調整できます。[laugh]、[whisper]、[super happy] といったタグを挿入したり、[professional broadcast tone] や [pitch up] といった自由形式の記述を使用したりすることで、単語単位での精密な制御が可能となり、表現力豊かで自然な生き生きとした音声を生成できます。
主な機能は以下の通りです:
完全なオープンソース:モデルの重み、微調整コード、およびSGLangに基づくストリーミング推論エンジンはすべて、GitHubとHugging Faceで公開されています。 S2-Proは、約44億のパラメータを持つフラッグシップバージョンです。超低遅延:推論遅延は150ミリ秒未満であり、チャットボットやバーチャルストリーマーなどのリアルタイムアプリケーションに最適です。ネイティブのマルチスピーカー対応:単一の推論で複数の話者を処理でき、会話のターンや割り込み、自然な感情表現を処理しながら、追加処理なしで一貫した音声品質を維持します。Fish Audioによると、S2は約50言語に及ぶ約1,000万時間の音声データを用いて学習されました。強化学習によるアライメントとデュアル自己回帰アーキテクチャを活用し、複数のベンチマークにおいて業界トップクラスの自然さと表現力を発揮しています。オープンソース・プロプライエタリを問わず、現在利用可能なTTSシステムの中で最も感情表現に優れたシステムの一つとされています。「真の言語的自由が今、始まる」とFish Audioは発表し、本物の感情と個性を備えたAI音声の到来を告げました。
GitHub:https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(





家






