XiaomiのオープンソースTTSモデル「OmniVoice」は、600以上の言語に対応したゼロショットクローン機能を可能にする
最近、Xiaomiの次世代Kaldiチーム(k2-fsa)は、600以上の言語に対応する大規模な多言語ゼロショット音声合成モデル「OmniVoice」を正式にオープンソース化しました。このモデルは、中国語、英語、および多言語合成に関する複数の主要ベンチマークにおいて最先端の成果を達成しており、この分野における大きな飛躍を遂げました。
トップクラスの性能:中国語のWERは0.84%と極めて低く、多言語テストでは主流モデルを上回る
Seed-TTS中国語テストセットにおいて、OmniVoiceはわずか0.84%という極めて低い単語誤り率(WER)を達成しました。多言語評価では、その類似度(SIM-o)およびWERスコアがElevenLabs v2やMiniMaxといった著名な商用モデルを上回り、卓越した音声の自然さと明瞭さを実証しています。

超高速推論:RTFはわずか0.025、リアルタイムの40倍の速度
OmniVoiceは、リアルタイム係数(RTF)がわずか0.025という低さを誇り、その合成速度はリアルタイム要件をはるかに上回っています。この大幅な効率化により、実用的なアプリケーションにおいて長文の音声生成を迅速に行うことが可能となり、ユーザー体験を大幅に向上させます。
中核となるアーキテクチャの革新:拡散モデルに着想を得た離散型非自己回帰設計
OmniVoiceは、拡散言語モデルに着想を得た斬新な離散非自己回帰アーキテクチャを採用しています。従来の中間的な意味的トークンを省略し、テキストから音声までを一つのステップで生成します。この合理化された設計により、高い出力品質を維持しつつパイプラインを簡素化しています。フルコードブックランダムマスキング戦略と事前学習済みLLMの初期化を組み合わせることで、トレーニング効率をさらに高め、最終的な音声の明瞭さと理解しやすさを向上させます。
柔軟な音声クローン作成とカスタマイズ:わずか3~10秒の音声で動作
本モデルは、わずか3~10秒の参照音声のみを使用して、高品質なゼロショット音声クローン生成をサポートします。また、ユーザーは自然言語プロンプトを通じて音声属性をカスタマイズでき、性別、年齢、ピッチ、アクセント、方言、さらにはささやき声のような特殊効果まで指定可能です。
非言語記号の処理と詳細な発音制御
OmniVoiceは[笑い声]などの非言語的記号を処理でき、ピンインや発音記号を用いた発音補正にも対応しています。これにより、中国語や様々な方言における精密な音声合成に特に適しています。
600以上の言語に対応:少数言語および消滅危惧言語のデジタル保存を支援
OmniVoiceの大きな特徴は、その広範な言語対応範囲にあり、主要言語だけでなく、リソースの乏しい数多くの言語も効率的にサポートしています。少数言語や消滅の危機にある言語においても、最小限のデータサンプルで高品質な音声を生成できるため、言語のデジタル保存や文化保護において大きな可能性を秘めています。
OmniVoiceのコードと事前学習済みモデルは、GitHubおよびHugging Faceでオープンソース化されており、開発者はローカルでの展開やアプリケーションへの統合が可能です。AIbaseは今後もコミュニティからのフィードバックや実世界でのユースケースを注視していきます。開発者の皆様には、ぜひご自身の体験を共有していただくようお願いいたします。
プロジェクトリンク: https://github.com/k2-fsa/OmniVoice
関連記事
インドが技術開発を加速させる中、リライアンスが1,100億ドルのAI投資計画を発表
インドの複合企業リライアンスの会長で億万長者のムケシュ・アンバニ氏は木曜日、今後7年間にわたりインド全土にAIコンピューティングインフラを構築するための10兆ルピー(約1,100億ドル)規模の計画を発表しました。木曜日にニューデリーで開催された「インドAIインパクト・サミット」で講演したアンバニ氏は、この投資により、ギガワット規模のデータセンター、全国規模のエッジコンピューティング・ネットワーク、
Zhiyuan WITA、初のコンプライアンス報告書の提出により「裸の」ロボットとの対話を終了
具現化知能分野において、重要な節目を迎えました。上海サイバー空間管理局の最新の発表によると、智源(Zhiyuan)が開発したWITA大規模モデルは届出手続きを無事に完了し、国内で初めて法規制に準拠して展開された具現化知能対話用大規模モデルとなりました。この成果は、単にライセンスを取得しただけにとどまらない。WITAの核心的な目的は、ヒューマノイドロボットが真の意味で会話し、感情を認識し、独自の個性
ある人類学的研究によると、洗練されたAIコンテンツは人間の思考力の低下と関連しているという
AIが、構成が整い、論理的に明快なコードや文書を瞬時に生成するのを見ると、何も疑うことなくそれを信用したくなってしまいませんか?AI分野のリーディングカンパニーであるAnthropicは、AIbaseによると、最近「AI流暢性指数(AI Fluency Index)」と題した調査報告書を発表しました。 約1万件の匿名化されたClaudeの会話サンプルを分析した結果、この調査では懸念すべき傾向が明ら
関連特集おすすめ
コメント (0)
0/500
最近、Xiaomiの次世代Kaldiチーム(k2-fsa)は、600以上の言語に対応する大規模な多言語ゼロショット音声合成モデル「OmniVoice」を正式にオープンソース化しました。このモデルは、中国語、英語、および多言語合成に関する複数の主要ベンチマークにおいて最先端の成果を達成しており、この分野における大きな飛躍を遂げました。
トップクラスの性能:中国語のWERは0.84%と極めて低く、多言語テストでは主流モデルを上回る
Seed-TTS中国語テストセットにおいて、OmniVoiceはわずか0.84%という極めて低い単語誤り率(WER)を達成しました。多言語評価では、その類似度(SIM-o)およびWERスコアがElevenLabs v2やMiniMaxといった著名な商用モデルを上回り、卓越した音声の自然さと明瞭さを実証しています。

超高速推論:RTFはわずか0.025、リアルタイムの40倍の速度
OmniVoiceは、リアルタイム係数(RTF)がわずか0.025という低さを誇り、その合成速度はリアルタイム要件をはるかに上回っています。この大幅な効率化により、実用的なアプリケーションにおいて長文の音声生成を迅速に行うことが可能となり、ユーザー体験を大幅に向上させます。
中核となるアーキテクチャの革新:拡散モデルに着想を得た離散型非自己回帰設計
OmniVoiceは、拡散言語モデルに着想を得た斬新な離散非自己回帰アーキテクチャを採用しています。従来の中間的な意味的トークンを省略し、テキストから音声までを一つのステップで生成します。この合理化された設計により、高い出力品質を維持しつつパイプラインを簡素化しています。フルコードブックランダムマスキング戦略と事前学習済みLLMの初期化を組み合わせることで、トレーニング効率をさらに高め、最終的な音声の明瞭さと理解しやすさを向上させます。
柔軟な音声クローン作成とカスタマイズ:わずか3~10秒の音声で動作
本モデルは、わずか3~10秒の参照音声のみを使用して、高品質なゼロショット音声クローン生成をサポートします。また、ユーザーは自然言語プロンプトを通じて音声属性をカスタマイズでき、性別、年齢、ピッチ、アクセント、方言、さらにはささやき声のような特殊効果まで指定可能です。
非言語記号の処理と詳細な発音制御
OmniVoiceは[笑い声]などの非言語的記号を処理でき、ピンインや発音記号を用いた発音補正にも対応しています。これにより、中国語や様々な方言における精密な音声合成に特に適しています。
600以上の言語に対応:少数言語および消滅危惧言語のデジタル保存を支援
OmniVoiceの大きな特徴は、その広範な言語対応範囲にあり、主要言語だけでなく、リソースの乏しい数多くの言語も効率的にサポートしています。少数言語や消滅の危機にある言語においても、最小限のデータサンプルで高品質な音声を生成できるため、言語のデジタル保存や文化保護において大きな可能性を秘めています。
OmniVoiceのコードと事前学習済みモデルは、GitHubおよびHugging Faceでオープンソース化されており、開発者はローカルでの展開やアプリケーションへの統合が可能です。AIbaseは今後もコミュニティからのフィードバックや実世界でのユースケースを注視していきます。開発者の皆様には、ぜひご自身の体験を共有していただくようお願いいたします。
プロジェクトリンク: https://github.com/k2-fsa/OmniVoice
インドが技術開発を加速させる中、リライアンスが1,100億ドルのAI投資計画を発表
インドの複合企業リライアンスの会長で億万長者のムケシュ・アンバニ氏は木曜日、今後7年間にわたりインド全土にAIコンピューティングインフラを構築するための10兆ルピー(約1,100億ドル)規模の計画を発表しました。木曜日にニューデリーで開催された「インドAIインパクト・サミット」で講演したアンバニ氏は、この投資により、ギガワット規模のデータセンター、全国規模のエッジコンピューティング・ネットワーク、
Zhiyuan WITA、初のコンプライアンス報告書の提出により「裸の」ロボットとの対話を終了
具現化知能分野において、重要な節目を迎えました。上海サイバー空間管理局の最新の発表によると、智源(Zhiyuan)が開発したWITA大規模モデルは届出手続きを無事に完了し、国内で初めて法規制に準拠して展開された具現化知能対話用大規模モデルとなりました。この成果は、単にライセンスを取得しただけにとどまらない。WITAの核心的な目的は、ヒューマノイドロボットが真の意味で会話し、感情を認識し、独自の個性
ある人類学的研究によると、洗練されたAIコンテンツは人間の思考力の低下と関連しているという
AIが、構成が整い、論理的に明快なコードや文書を瞬時に生成するのを見ると、何も疑うことなくそれを信用したくなってしまいませんか?AI分野のリーディングカンパニーであるAnthropicは、AIbaseによると、最近「AI流暢性指数(AI Fluency Index)」と題した調査報告書を発表しました。 約1万件の匿名化されたClaudeの会話サンプルを分析した結果、この調査では懸念すべき傾向が明ら





家






