XiaomiのオープンソースTTSモデル「OmniVoice」は、600以上の言語に対応したゼロショットクローン機能を可能にする

家

ニュース

2026年5月8日

RobertSanchez

最近、Xiaomiの次世代Kaldiチーム（k2-fsa）は、600以上の言語に対応する大規模な多言語ゼロショット音声合成モデル「OmniVoice」を正式にオープンソース化しました。このモデルは、中国語、英語、および多言語合成に関する複数の主要ベンチマークにおいて最先端の成果を達成しており、この分野における大きな飛躍を遂げました。

トップクラスの性能：中国語のWERは0.84%と極めて低く、多言語テストでは主流モデルを上回る

Seed-TTS中国語テストセットにおいて、OmniVoiceはわずか0.84%という極めて低い単語誤り率（WER）を達成しました。多言語評価では、その類似度（SIM-o）およびWERスコアがElevenLabs v2やMiniMaxといった著名な商用モデルを上回り、卓越した音声の自然さと明瞭さを実証しています。

超高速推論：RTFはわずか0.025、リアルタイムの40倍の速度

OmniVoiceは、リアルタイム係数（RTF）がわずか0.025という低さを誇り、その合成速度はリアルタイム要件をはるかに上回っています。この大幅な効率化により、実用的なアプリケーションにおいて長文の音声生成を迅速に行うことが可能となり、ユーザー体験を大幅に向上させます。

中核となるアーキテクチャの革新：拡散モデルに着想を得た離散型非自己回帰設計

OmniVoiceは、拡散言語モデルに着想を得た斬新な離散非自己回帰アーキテクチャを採用しています。従来の中間的な意味的トークンを省略し、テキストから音声までを一つのステップで生成します。この合理化された設計により、高い出力品質を維持しつつパイプラインを簡素化しています。フルコードブックランダムマスキング戦略と事前学習済みLLMの初期化を組み合わせることで、トレーニング効率をさらに高め、最終的な音声の明瞭さと理解しやすさを向上させます。

柔軟な音声クローン作成とカスタマイズ：わずか3～10秒の音声で動作

本モデルは、わずか3～10秒の参照音声のみを使用して、高品質なゼロショット音声クローン生成をサポートします。また、ユーザーは自然言語プロンプトを通じて音声属性をカスタマイズでき、性別、年齢、ピッチ、アクセント、方言、さらにはささやき声のような特殊効果まで指定可能です。

非言語記号の処理と詳細な発音制御

OmniVoiceは[笑い声]などの非言語的記号を処理でき、ピンインや発音記号を用いた発音補正にも対応しています。これにより、中国語や様々な方言における精密な音声合成に特に適しています。

600以上の言語に対応：少数言語および消滅危惧言語のデジタル保存を支援

OmniVoiceの大きな特徴は、その広範な言語対応範囲にあり、主要言語だけでなく、リソースの乏しい数多くの言語も効率的にサポートしています。少数言語や消滅の危機にある言語においても、最小限のデータサンプルで高品質な音声を生成できるため、言語のデジタル保存や文化保護において大きな可能性を秘めています。

OmniVoiceのコードと事前学習済みモデルは、GitHubおよびHugging Faceでオープンソース化されており、開発者はローカルでの展開やアプリケーションへの統合が可能です。AIbaseは今後もコミュニティからのフィードバックや実世界でのユースケースを注視していきます。開発者の皆様には、ぜひご自身の体験を共有していただくようお願いいたします。

プロジェクトリンク: https://github.com/k2-fsa/OmniVoice

インドが技術開発を加速させる中、リライアンスが1,100億ドルのAI投資計画を発表インドの複合企業リライアンスの会長で億万長者のムケシュ・アンバニ氏は木曜日、今後7年間にわたりインド全土にAIコンピューティングインフラを構築するための10兆ルピー（約1,100億ドル）規模の計画を発表しました。木曜日にニューデリーで開催された「インドAIインパクト・サミット」で講演したアンバニ氏は、この投資により、ギガワット規模のデータセンター、全国規模のエッジコンピューティング・ネットワーク、

Zhiyuan WITA、初のコンプライアンス報告書の提出により「裸の」ロボットとの対話を終了具現化知能分野において、重要な節目を迎えました。上海サイバー空間管理局の最新の発表によると、智源（Zhiyuan）が開発したWITA大規模モデルは届出手続きを無事に完了し、国内で初めて法規制に準拠して展開された具現化知能対話用大規模モデルとなりました。この成果は、単にライセンスを取得しただけにとどまらない。WITAの核心的な目的は、ヒューマノイドロボットが真の意味で会話し、感情を認識し、独自の個性

ある人類学的研究によると、洗練されたAIコンテンツは人間の思考力の低下と関連しているという AIが、構成が整い、論理的に明快なコードや文書を瞬時に生成するのを見ると、何も疑うことなくそれを信用したくなってしまいませんか？AI分野のリーディングカンパニーであるAnthropicは、AIbaseによると、最近「AI流暢性指数（AI Fluency Index）」と題した調査報告書を発表しました。約1万件の匿名化されたClaudeの会話サンプルを分析した結果、この調査では懸念すべき傾向が明ら

関連特集おすすめ

アニメーション制作

東華向けAIアニメジェネレーター：ウェブ小説のキャラクターやコミックのアバターを作成する

2026年に最も優れたAIアニメーション生成ツールを探そう。当社が厳選したリストには、見事なウェブ小説のキャラクターやコミックのアバターを作成するための強力なツールが揃っています。無料オプションと有料オプションを実際のテストで比較し、自分に最適な創造的なパートナーを見つけて、今日すぐにXIX.AIであなたの物語を形にしてみましょう。

10 ツール

xix.ai

漫画制作

漫画向けトップAI自動着色ツール：色むらのないフラットカラーを適用

XIX.AIで、2026年版のおすすめマンガ用AI自動着色ツールをご覧ください。厳選されたリストには、一貫性の誤差ゼロでフラットカラーを適用し、生産性を飛躍的に向上させる、高評価の画期的なソリューションが揃っています。無料版と有料版の比較、実地テスト、毎週更新されるランキングを参考に、あなたにぴったりのツールを見つけてください。今すぐAIの力を活用しましょう。

10 ツール

xix.ai

書き込み

AI小説プロファイル作成のトップクリエイター：一貫性のあるキャラクターの動機と致命的な欠点を生成する

深みのあるキャラクターを創り出す、2026年最高のAIフィクションプロファイル作成ツールを発見しましょう。XIX.AIが厳選したこのリストには、一貫した動機や致命的な欠点を生成する、高評価で業界を変革するツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較してください。今すぐストーリーテリングの可能性を解き放ちましょう。

10 ツール

xix.ai

仕事

AIを活用した価格最適化ソフトのトップ選定：競合他社の動向を追跡し、店舗価格を自動調整

XIX.AIで、2026年最高のAI価格最適化ソフトウェアを見つけましょう。厳選されたリストには、競合他社の動向を追跡し、利益を最大化するために店舗の価格を自動調整する、高評価の画期的なツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較してください。今すぐ価格設定における優位性を手に入れましょう。

10 ツール

xix.ai

コード

最高のAIコードレビューツール：クリーンコードの遵守を自動化し、レガシーリポジトリのファイルをリファクタリング

XIX.AIで、2026年最高のAIコードレビューツールを発見しましょう。厳選されたこのリストには、クリーンなコードの遵守を自動化し、レガシーリポジトリのファイルをリファクタリングするための、高評価で画期的なツールが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版を比較してください。今すぐAIの力を活用しましょう。

10 ツール

xix.ai

テキスト読み上げ

ディスレクシアに最適なAI音声合成アプリ：生徒の学習と読解力の向上をサポート

ディスレクシア支援のために厳選された、2026年最新の最高評価AI TTSアプリをご紹介します。専門家によるランキングでは、無料ツールと有料ツールを比較し、読解効率と学習効果を高める強力な機能を詳しく解説しています。生徒の可能性を引き出す、ぜひ試すべき画期的なソリューションをご覧ください。XIX.AIでその第一歩を踏み出しましょう。

10 ツール

xix.ai