Hume AI、TADAをリリース:処理速度が5倍で、誤認識のないオープンソースのモバイルTTS

Hume AIは、最新の音声生成モデル「TADA(Text-Acoustic Dual Alignment)」をオープンソース化しました。大規模言語モデル(LLM)を基盤とするこのテキスト・トゥ・スピーチ(TTS)システムは、テキストと音響信号の双方を対象とした革新的なデュアルアライメントアーキテクチャを採用しています。このアプローチにより、生成効率と信頼性が大幅に向上し、実用的な応用範囲も拡大します。
公式発表によると、TADAはテキストトークンと音響表現の間に厳密な1対1の同期を確立しています。このアーキテクチャにより、従来のLLMベースのTTSシステムに見られるトークンレベルのコンテンツ幻覚という一般的な問題が完全に解決されました。1,000件以上のテストサンプルを用いた評価において、本モデルではコンテンツ幻覚が1件も発生しませんでした。
性能面では、TADAは同等のLLM TTSシステムと比較して5倍以上の速度で音声を生成します。また、リソース効率も極めて高く、音声1秒あたりわずか2~3フレームの計算リソースしか必要としません。対照的に、従来のソリューションでは通常12.5~75フレームを必要とします。この効率性により、スマートフォンやエッジデバイスなどの低消費電力ハードウェア上でローカル推論を実行することが可能となり、クラウドサーバーが不要になります。
TADAは中国語を含む多言語対応を提供しており、その多言語バージョンはLlama3.23Bパラメータ規模に基づいています。 今回のリリースには、1B(主に英語向け)および3Bの多言語事前学習済みモデルが含まれています。2048トークンのコンテキストウィンドウを持つこのモデルは、1回の処理で約700秒間の連続音声を出力可能です。この能力は、同じトークン制約下で通常約70秒に制限される従来のソリューションをはるかに上回っています。
重要な革新点の一つは、同期転写機能です。音声生成と同時に、モデルは対応するテキスト転写を出力します。このプロセスにより、別途自動音声認識(ASR)を行う必要がなくなり、テキスト出力における追加の遅延がゼロになります。この機能は、リアルタイムキャプション、音声対話システム、コンテンツ作成ツールにおいて特に有用です。
人間の主観評価において、TADAは「自然さ」と「声の類似性」の両方で2位を獲得しました。パラメータ数が多く、より大規模なトレーニングデータを持つ複数のシステムを上回り、極めて競争力のある音質を誇っています。
リンク: https://huggingface.co/collections/HumeAI/tada
関連記事
MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める
中国工業情報化省は、「人工知能セキュリティガバナンスモデルコンテキストプロトコルのアプリケーションセキュリティ要求」を含む121件の産業標準化プロジェクトについて、一般からの意見を求める通知を正式に発表しました。この公告は、中国がAIの基盤となる標準や安全監督枠組みを確立する取り組みにおいて重要なマイルストーンとなります。一般からの意見募集期間中は、モデルコンテキストプロトコルのアプリケーションセキュリティに焦点を当て、標準化された技術仕様を通じて、マルチモーダルインタラクション、長文処理、クロ
オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加
公衆の怒り:OpenAIの軍事提携が「アンインストールブーム」を引き起こす最近、AI分野のリーダーであるOpenAIは、米国国防総省との深い協力関係を発表し、自社のAIモデルを極秘の軍事ネットワークに統合するとした。このニュースは米国内で広範なユーザーからの反発を招き、「ChatGPTボイコット」運動が盛り上がっている。市場分析会社Sensor Towerによると、2026年2月28日にOpenAIが正式にこの協力関係を発表した当日、米国市場におけるChatGPTモバイルアプリのアンインスト
OpenAIが「Sites」機能をリリース、テキストベースのウェブサイトにより「ノーコード」時代の幕を閉じる
OpenAIは、ソフトウェアエンジニアリング向けAI「Codex」の新機能「Sites」を発表しました。現在プレビュー版として提供されており、有料のBusinessおよびEnterpriseプランの加入者のみが利用可能です。この機能は、Webおよびアプリケーション開発における従来の障壁を取り除くことを目的としています。Sitesの本質は、抽象的なアイデアを実際に使えるツールへと変換するプラットフォ
関連特集おすすめ
コメント (1)
0/500

Hume AIは、最新の音声生成モデル「TADA(Text-Acoustic Dual Alignment)」をオープンソース化しました。大規模言語モデル(LLM)を基盤とするこのテキスト・トゥ・スピーチ(TTS)システムは、テキストと音響信号の双方を対象とした革新的なデュアルアライメントアーキテクチャを採用しています。このアプローチにより、生成効率と信頼性が大幅に向上し、実用的な応用範囲も拡大します。
公式発表によると、TADAはテキストトークンと音響表現の間に厳密な1対1の同期を確立しています。このアーキテクチャにより、従来のLLMベースのTTSシステムに見られるトークンレベルのコンテンツ幻覚という一般的な問題が完全に解決されました。1,000件以上のテストサンプルを用いた評価において、本モデルではコンテンツ幻覚が1件も発生しませんでした。
性能面では、TADAは同等のLLM TTSシステムと比較して5倍以上の速度で音声を生成します。また、リソース効率も極めて高く、音声1秒あたりわずか2~3フレームの計算リソースしか必要としません。対照的に、従来のソリューションでは通常12.5~75フレームを必要とします。この効率性により、スマートフォンやエッジデバイスなどの低消費電力ハードウェア上でローカル推論を実行することが可能となり、クラウドサーバーが不要になります。
TADAは中国語を含む多言語対応を提供しており、その多言語バージョンはLlama3.23Bパラメータ規模に基づいています。 今回のリリースには、1B(主に英語向け)および3Bの多言語事前学習済みモデルが含まれています。2048トークンのコンテキストウィンドウを持つこのモデルは、1回の処理で約700秒間の連続音声を出力可能です。この能力は、同じトークン制約下で通常約70秒に制限される従来のソリューションをはるかに上回っています。
重要な革新点の一つは、同期転写機能です。音声生成と同時に、モデルは対応するテキスト転写を出力します。このプロセスにより、別途自動音声認識(ASR)を行う必要がなくなり、テキスト出力における追加の遅延がゼロになります。この機能は、リアルタイムキャプション、音声対話システム、コンテンツ作成ツールにおいて特に有用です。
人間の主観評価において、TADAは「自然さ」と「声の類似性」の両方で2位を獲得しました。パラメータ数が多く、より大規模なトレーニングデータを持つ複数のシステムを上回り、極めて競争力のある音質を誇っています。
リンク: https://huggingface.co/collections/HumeAI/tada
MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める
中国工業情報化省は、「人工知能セキュリティガバナンスモデルコンテキストプロトコルのアプリケーションセキュリティ要求」を含む121件の産業標準化プロジェクトについて、一般からの意見を求める通知を正式に発表しました。この公告は、中国がAIの基盤となる標準や安全監督枠組みを確立する取り組みにおいて重要なマイルストーンとなります。一般からの意見募集期間中は、モデルコンテキストプロトコルのアプリケーションセキュリティに焦点を当て、標準化された技術仕様を通じて、マルチモーダルインタラクション、長文処理、クロ
オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加
公衆の怒り:OpenAIの軍事提携が「アンインストールブーム」を引き起こす最近、AI分野のリーダーであるOpenAIは、米国国防総省との深い協力関係を発表し、自社のAIモデルを極秘の軍事ネットワークに統合するとした。このニュースは米国内で広範なユーザーからの反発を招き、「ChatGPTボイコット」運動が盛り上がっている。市場分析会社Sensor Towerによると、2026年2月28日にOpenAIが正式にこの協力関係を発表した当日、米国市場におけるChatGPTモバイルアプリのアンインスト
OpenAIが「Sites」機能をリリース、テキストベースのウェブサイトにより「ノーコード」時代の幕を閉じる
OpenAIは、ソフトウェアエンジニアリング向けAI「Codex」の新機能「Sites」を発表しました。現在プレビュー版として提供されており、有料のBusinessおよびEnterpriseプランの加入者のみが利用可能です。この機能は、Webおよびアプリケーション開発における従来の障壁を取り除くことを目的としています。Sitesの本質は、抽象的なアイデアを実際に使えるツールへと変換するプラットフォ





家






