小米的 OmniVoice 開源 TTS 模型實現了橫跨 600 多種語言的零樣本克隆
近日,小米的下一代 Kaldi 團隊(k2-fsa)正式開源了 OmniVoice,這是一款支援超過 600 種語言的大型多語言零樣本文字轉語音模型。該模型在中文、英文及多語言合成等多項關鍵基準測試中均取得業界領先的成績,標誌著該領域取得重大突破。
領先表現:中文 WER 低至 0.84%,多語言測試中超越主流模型
在 Seed-TTS 中文測試集上,OmniVoice 達到了僅 0.84% 的驚人低詞錯誤率 (WER)。在多語言評估中,其相似度 (SIM-o) 和 WER 分數超越了 ElevenLabs v2 和 MiniMax 等知名商用模型,展現出卓越的語音自然度與清晰度。

超高速推論:RTF 低至 0.025,速度比即時處理快 40 倍
OmniVoice 的即時因子 (RTF) 低至 0.025,意味著其合成速度遠超即時要求。這項巨大的效能提升,使系統能在實際應用中快速生成長篇語音,大幅提升使用者體驗。
核心架構創新:受擴散模型啟發的離散非自迴歸設計
OmniVoice 採用受擴散語言模型啟發的創新離散非自迴歸架構。它能透過單一步驟將文字轉化為語音,省略了傳統的中間語義標記。此精簡設計在維持高輸出品質的同時,也簡化了處理流程。結合預訓練大型語言模型(LLM)的初始化,以及完整的碼本隨機遮罩策略,進一步提升了訓練效率,並改善了最終語音的清晰度與可懂度。
靈活的聲音複製與自訂功能:僅需 3 至 10 秒的音訊即可運作
該模型僅需 3 至 10 秒的參考音訊,即可實現高品質的零樣本語音克隆。使用者還能透過自然語言提示自訂語音屬性,指定性別、年齡、音高、口音、方言,甚至包括耳語等特殊效果。
支援非語言符號與細緻發音控制
OmniVoice 能處理非語言符號(如 [笑聲]),並支援透過拼音或音標進行發音修正。這使其特別適合用於中文及各類方言的精準合成。
支援 600 多種語言:協助少數民族語言與瀕危語言的數位保存
OmniVoice 的關鍵亮點在於其廣泛的語言覆蓋範圍,能高效支援主要語言及眾多資源匱乏的語言。對於少數民族語言及瀕危語言,它僅需極少的數據樣本即可生成高品質語音,為數位語言保存與文化保護提供了巨大潛力。
OmniVoice 的原始碼與預訓練模型現已於 GitHub 和 Hugging Face 開源,開發者可自行部署或整合至應用程式中。AIbase 將持續關注社群回饋與實際應用案例,並鼓勵開發者分享使用經驗。
專案連結:https://github.com/k2-fsa/OmniVoice
相關文章
解讀新的 ETSI 人工智慧安全標準
ETSI EN 304 223 制定了人工智慧的基礎安全要求,各組織應將其納入其治理架構之中。隨著企業將機器學習整合至核心工作流程,這項歐洲標準針對保護 AI 模型與系統提供了具體規範。這是首項適用於全球的 AI 網路安全歐洲標準,並已獲各國國家標準組織正式批准,這進一步鞏固了其在國際市場上的公信力。作為《歐盟人工智慧法案》的補充性基準,本標準承認人工智慧系統存在獨特風險——包括資料中毒、模型混淆
Gmail 推出個人化 AI 收件匣、搜尋中的 AI 摘要等功能
Google 為 Gmail 推出了一款由 AI 驅動的新收件匣,能為您提供任務的個人化概覽,並讓您隨時掌握重要更新。此外,Gmail 還將在搜尋功能中推出 AI 概覽,並推出一款類似 Grammarly 的校對工具。先前僅限付費訂閱者使用的多項 AI 功能,現已開放給所有使用者使用。新的 AI 收件匣分頁包含兩個區塊:「建議待辦事項」與「待追蹤主題」。 第一個區塊會顯示需要採取行動的高優先級電子
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循
相關專題推薦
評論 (0)
0/500
近日,小米的下一代 Kaldi 團隊(k2-fsa)正式開源了 OmniVoice,這是一款支援超過 600 種語言的大型多語言零樣本文字轉語音模型。該模型在中文、英文及多語言合成等多項關鍵基準測試中均取得業界領先的成績,標誌著該領域取得重大突破。
領先表現:中文 WER 低至 0.84%,多語言測試中超越主流模型
在 Seed-TTS 中文測試集上,OmniVoice 達到了僅 0.84% 的驚人低詞錯誤率 (WER)。在多語言評估中,其相似度 (SIM-o) 和 WER 分數超越了 ElevenLabs v2 和 MiniMax 等知名商用模型,展現出卓越的語音自然度與清晰度。

超高速推論:RTF 低至 0.025,速度比即時處理快 40 倍
OmniVoice 的即時因子 (RTF) 低至 0.025,意味著其合成速度遠超即時要求。這項巨大的效能提升,使系統能在實際應用中快速生成長篇語音,大幅提升使用者體驗。
核心架構創新:受擴散模型啟發的離散非自迴歸設計
OmniVoice 採用受擴散語言模型啟發的創新離散非自迴歸架構。它能透過單一步驟將文字轉化為語音,省略了傳統的中間語義標記。此精簡設計在維持高輸出品質的同時,也簡化了處理流程。結合預訓練大型語言模型(LLM)的初始化,以及完整的碼本隨機遮罩策略,進一步提升了訓練效率,並改善了最終語音的清晰度與可懂度。
靈活的聲音複製與自訂功能:僅需 3 至 10 秒的音訊即可運作
該模型僅需 3 至 10 秒的參考音訊,即可實現高品質的零樣本語音克隆。使用者還能透過自然語言提示自訂語音屬性,指定性別、年齡、音高、口音、方言,甚至包括耳語等特殊效果。
支援非語言符號與細緻發音控制
OmniVoice 能處理非語言符號(如 [笑聲]),並支援透過拼音或音標進行發音修正。這使其特別適合用於中文及各類方言的精準合成。
支援 600 多種語言:協助少數民族語言與瀕危語言的數位保存
OmniVoice 的關鍵亮點在於其廣泛的語言覆蓋範圍,能高效支援主要語言及眾多資源匱乏的語言。對於少數民族語言及瀕危語言,它僅需極少的數據樣本即可生成高品質語音,為數位語言保存與文化保護提供了巨大潛力。
OmniVoice 的原始碼與預訓練模型現已於 GitHub 和 Hugging Face 開源,開發者可自行部署或整合至應用程式中。AIbase 將持續關注社群回饋與實際應用案例,並鼓勵開發者分享使用經驗。
專案連結:https://github.com/k2-fsa/OmniVoice
解讀新的 ETSI 人工智慧安全標準
ETSI EN 304 223 制定了人工智慧的基礎安全要求,各組織應將其納入其治理架構之中。隨著企業將機器學習整合至核心工作流程,這項歐洲標準針對保護 AI 模型與系統提供了具體規範。這是首項適用於全球的 AI 網路安全歐洲標準,並已獲各國國家標準組織正式批准,這進一步鞏固了其在國際市場上的公信力。作為《歐盟人工智慧法案》的補充性基準,本標準承認人工智慧系統存在獨特風險——包括資料中毒、模型混淆
Gmail 推出個人化 AI 收件匣、搜尋中的 AI 摘要等功能
Google 為 Gmail 推出了一款由 AI 驅動的新收件匣,能為您提供任務的個人化概覽,並讓您隨時掌握重要更新。此外,Gmail 還將在搜尋功能中推出 AI 概覽,並推出一款類似 Grammarly 的校對工具。先前僅限付費訂閱者使用的多項 AI 功能,現已開放給所有使用者使用。新的 AI 收件匣分頁包含兩個區塊:「建議待辦事項」與「待追蹤主題」。 第一個區塊會顯示需要採取行動的高優先級電子
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循





首頁






