Hume AI 推出 TADA:開源行動語音合成系統,速度提升 5 倍且無幻聽現象

Hume AI 已將其最新的語音生成模型 TADA(Text-Acoustic Dual Alignment)開源。這個基於大型語言模型(LLM)的文字轉語音(TTS)系統,採用了針對文字與聲學特徵的創新雙重對齊架構。此方法顯著提升了生成效率與可靠性,並擴大了其實際應用的範圍。
根據官方詳述,TADA 在文字標記與聲學表徵之間建立了嚴格的 1:1 同步關係。此架構徹底解決了傳統基於大型語言模型(LLM)的 TTS 系統中常見的標記層級內容幻覺問題。在涵蓋超過 1,000 個測試樣本的評估中,該模型未出現任何內容幻覺案例。
在效能方面,TADA 的音訊生成速度比同級 LLM 語音合成系統快五倍以上。其資源利用效率亦極為出色,每秒音訊僅需 2 至 3 幀的運算資源。相較之下,傳統解決方案通常需要 12.5 至 75 幀。此高效能使模型能在智慧型手機和邊緣裝置等低功耗硬體上執行本地推論,無需仰賴雲端伺服器。
TADA 提供多語言支援,包含中文在內,其多語言版本基於 Llama3.23B 參數規模。 本次發布包含 1B(主要針對英語)及 3B 多語言預訓練模型。在 2048 個標記的上下文視窗下,該模型可於單次處理中生成約 700 秒的連續音訊。此能力遠超傳統解決方案,後者在相同標記限制下通常僅能處理約 70 秒。
其關鍵創新在於同步轉錄功能。在生成語音的同時,模型會同步輸出對應的文字轉錄。此流程省去了額外的自動語音辨識(ASR)步驟,使文字輸出零延遲。此功能對於即時字幕、語音互動系統及內容創作工具尤具價值。
在人類主觀評測中,TADA 在自然度與聲音相似度兩項指標上均名列第二。其表現超越了多個參數規模更大、訓練資料更龐大的系統,展現出極具競爭力的音質。
連結:https://huggingface.co/collections/HumeAI/tada
相關文章
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
奔騰4的復興:這款已有20年曆史的CPU能夠執行Meta Llama 3大型模型
最近,YouTube技術頻道Fully Buffered進行了一項令人印象深刻且極具挑戰性的實驗:他們成功地在2006年推出的Pentium 4 641處理器上執行了Meta最新的Llama 3.2 3B大型模型。這項測試迫使現代人工智慧技術與二十年前的硬體裝置進行了碰撞,不僅揭示了大語言模型的基本相容性限制,還引發了眾多觀眾的思考:在人工智慧時代,摩爾定律是如何以這種不同尋常的方式實現跨代際應用的。硬體考古學:將2006年的元件推向極限為了完成這項測試,Fully Buffered團隊重
相關專題推薦
評論 (1)
0/500

Hume AI 已將其最新的語音生成模型 TADA(Text-Acoustic Dual Alignment)開源。這個基於大型語言模型(LLM)的文字轉語音(TTS)系統,採用了針對文字與聲學特徵的創新雙重對齊架構。此方法顯著提升了生成效率與可靠性,並擴大了其實際應用的範圍。
根據官方詳述,TADA 在文字標記與聲學表徵之間建立了嚴格的 1:1 同步關係。此架構徹底解決了傳統基於大型語言模型(LLM)的 TTS 系統中常見的標記層級內容幻覺問題。在涵蓋超過 1,000 個測試樣本的評估中,該模型未出現任何內容幻覺案例。
在效能方面,TADA 的音訊生成速度比同級 LLM 語音合成系統快五倍以上。其資源利用效率亦極為出色,每秒音訊僅需 2 至 3 幀的運算資源。相較之下,傳統解決方案通常需要 12.5 至 75 幀。此高效能使模型能在智慧型手機和邊緣裝置等低功耗硬體上執行本地推論,無需仰賴雲端伺服器。
TADA 提供多語言支援,包含中文在內,其多語言版本基於 Llama3.23B 參數規模。 本次發布包含 1B(主要針對英語)及 3B 多語言預訓練模型。在 2048 個標記的上下文視窗下,該模型可於單次處理中生成約 700 秒的連續音訊。此能力遠超傳統解決方案,後者在相同標記限制下通常僅能處理約 70 秒。
其關鍵創新在於同步轉錄功能。在生成語音的同時,模型會同步輸出對應的文字轉錄。此流程省去了額外的自動語音辨識(ASR)步驟,使文字輸出零延遲。此功能對於即時字幕、語音互動系統及內容創作工具尤具價值。
在人類主觀評測中,TADA 在自然度與聲音相似度兩項指標上均名列第二。其表現超越了多個參數規模更大、訓練資料更龐大的系統,展現出極具競爭力的音質。
連結:https://huggingface.co/collections/HumeAI/tada
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
奔騰4的復興:這款已有20年曆史的CPU能夠執行Meta Llama 3大型模型
最近,YouTube技術頻道Fully Buffered進行了一項令人印象深刻且極具挑戰性的實驗:他們成功地在2006年推出的Pentium 4 641處理器上執行了Meta最新的Llama 3.2 3B大型模型。這項測試迫使現代人工智慧技術與二十年前的硬體裝置進行了碰撞,不僅揭示了大語言模型的基本相容性限制,還引發了眾多觀眾的思考:在人工智慧時代,摩爾定律是如何以這種不同尋常的方式實現跨代際應用的。硬體考古學:將2006年的元件推向極限為了完成這項測試,Fully Buffered團隊重





首頁






