美團開源語音模型樹立了語音克隆的新標竿
音訊生成領域正經歷一場根本性的轉變,從多階段級聯架構轉向端到端模型。 為克服傳統 TTS 系統所採用的「梅爾頻譜圖」中間表示形式所固有的資訊損失與誤差累積問題,美團 LongCat 團隊已正式發布並開源 LongCat-AudioDiT(提供 10 億與 35 億參數版本)。該模型透過直接波形潛空間建模,成功突破了零樣本語音克隆的既有性能極限。

核心架構:突破梅爾頻譜圖的局限
LongCat-AudioDiT 摒棄了傳統的「聲學特徵預測 + 神經語音編碼器」多階段流程,轉而建立一套基於 Wav-VAE(波形變分自編碼器)與 DiT(擴散變換器)的簡化極簡架構。
高效 Wav-VAE:採用全卷積設計,將 24kHz 波形壓縮 2000 倍至 11.7Hz 幀率。透過非參數捷徑分支與多目標對抗式訓練,確保重建波形在維持精確時頻結構的同時,呈現極佳的自然聆聽品質。
語義增強型 DiT:該模型創新性地將 UMT5 文字編碼器的原始詞嵌入向量與其頂層隱藏狀態進行融合。此舉彌補了高階語義表示中遺失的語音細節,顯著提升了生成的語音可懂度。
推論優化:精準修正語音漂移
為進一步提升生成品質,研究團隊實施了兩項關鍵技術改進:
雙重約束機制:此技術能識別並修正流匹配 TTS 中長期存在的「訓練與推論不匹配」問題。透過在推論階段強制重置提示區的潛在變量,徹底解決了發音者聲音漂移與不穩定的問題。
自適應投影引導(APG):APG 取代了傳統的無分類器引導(CFG)。它能精準篩選引導訊號中的有益成分,同時抑制導致音質退化的成分,在避免引發頻譜「過飽和」的情況下,顯著提升語音自然度。
性能:SOTA 級別的克隆準確度
在 Seed 資料集的基準測試中,LongCat-AudioDiT 展現出領先的表現:
相似度 (SIM):該 35 億參數模型在 Seed-ZH 測試集上獲得 0.818 的分數,並在具挑戰性的 Seed-Hard 句子集上取得 0.797,表現優於 Seed-TTS、CosyVoice3.5 及 MiniMax-Speech 等知名模型。
準確度:在關鍵指標上名列業界頂尖,包括英語 WER 為 1.50%,以及中文難句 CER 為 6.04%。
值得注意的是,LongCat-AudioDiT 僅透過對預處理後的 ASR 轉錄資料進行單階段訓練,便能取得優於多階段訓練模型的卓越成果。相關研究論文、原始碼及模型權重現已全面開源,並可於 GitHub 和 HuggingFace 取得。
專案連結:
GitHub:https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace:https://huggingface.co/meituan-longcat/LongCat-AudioDiT
相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
相關專題推薦
評論 (0)
0/500
音訊生成領域正經歷一場根本性的轉變,從多階段級聯架構轉向端到端模型。 為克服傳統 TTS 系統所採用的「梅爾頻譜圖」中間表示形式所固有的資訊損失與誤差累積問題,美團 LongCat 團隊已正式發布並開源 LongCat-AudioDiT(提供 10 億與 35 億參數版本)。該模型透過直接波形潛空間建模,成功突破了零樣本語音克隆的既有性能極限。

核心架構:突破梅爾頻譜圖的局限
LongCat-AudioDiT 摒棄了傳統的「聲學特徵預測 + 神經語音編碼器」多階段流程,轉而建立一套基於 Wav-VAE(波形變分自編碼器)與 DiT(擴散變換器)的簡化極簡架構。
高效 Wav-VAE:採用全卷積設計,將 24kHz 波形壓縮 2000 倍至 11.7Hz 幀率。透過非參數捷徑分支與多目標對抗式訓練,確保重建波形在維持精確時頻結構的同時,呈現極佳的自然聆聽品質。
語義增強型 DiT:該模型創新性地將 UMT5 文字編碼器的原始詞嵌入向量與其頂層隱藏狀態進行融合。此舉彌補了高階語義表示中遺失的語音細節,顯著提升了生成的語音可懂度。
推論優化:精準修正語音漂移
為進一步提升生成品質,研究團隊實施了兩項關鍵技術改進:
雙重約束機制:此技術能識別並修正流匹配 TTS 中長期存在的「訓練與推論不匹配」問題。透過在推論階段強制重置提示區的潛在變量,徹底解決了發音者聲音漂移與不穩定的問題。
自適應投影引導(APG):APG 取代了傳統的無分類器引導(CFG)。它能精準篩選引導訊號中的有益成分,同時抑制導致音質退化的成分,在避免引發頻譜「過飽和」的情況下,顯著提升語音自然度。
性能:SOTA 級別的克隆準確度
在 Seed 資料集的基準測試中,LongCat-AudioDiT 展現出領先的表現:
相似度 (SIM):該 35 億參數模型在 Seed-ZH 測試集上獲得 0.818 的分數,並在具挑戰性的 Seed-Hard 句子集上取得 0.797,表現優於 Seed-TTS、CosyVoice3.5 及 MiniMax-Speech 等知名模型。
準確度:在關鍵指標上名列業界頂尖,包括英語 WER 為 1.50%,以及中文難句 CER 為 6.04%。
值得注意的是,LongCat-AudioDiT 僅透過對預處理後的 ASR 轉錄資料進行單階段訓練,便能取得優於多階段訓練模型的卓越成果。相關研究論文、原始碼及模型權重現已全面開源,並可於 GitHub 和 HuggingFace 取得。
專案連結:
GitHub:https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace:https://huggingface.co/meituan-longcat/LongCat-AudioDiT
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen





首頁






