微軟的 VibeVoice AI 系列開放原始碼,可處理長達 90 分鐘的對話,GitHub 星標數突破 27,000 顆
微軟最近開源了一套名為VibeVoice 的尖端語音 AI 模型系列,具備自動語音辨識(ASR)和文字轉語音(TTS)等功能。 憑藉其強大的長音訊處理能力、自然的多發言人對話生成功能,以及即時、低延遲的表現,該專案迅速引起開發者社群的關注,目前在 GitHub 上已累積約 27,000 顆星。
VibeVoice 作為採用 MIT 授權的開源研究框架發布,支援本地部署且無需支付雲端訂閱費用,旨在促進語音合成領域的合作與創新。該模型系列包含三個核心成員,各自針對傳統語音 AI 中的特定挑戰進行優化,例如長序列處理、發言人一致性及自然流暢度。

VibeVoice-ASR-7B:強大的結構化語音轉文字工具,可處理長達 60 分鐘的音訊
VibeVoice-ASR-7B是一款統一的語音轉文字模型,能夠在單次處理中處理長達 60 分鐘的音訊檔案,並直接輸出結構化文字記錄。輸出結果會識別說話者、提供精確的時間戳記,並詳述語音內容,同時支援自訂熱詞以提升專有名詞或技術術語的辨識準確度。 支援超過 50 種語言,非常適合用於長篇會議錄音和播客轉錄等複雜情境。
社群開發者已基於此模型開發出實用工具,例如適用於 macOS 和 Windows 的語音輸入法「Vibing」。使用者反饋顯示其在速度與準確度方面表現優異,顯著提升了日常語音輸入的效率。
VibeVoice-TTS-1.5B:支援多達 90 分鐘、多名講者的生動語音生成
VibeVoice-TTS-1.5B是核心文字轉語音模型,能一次生成長達 90 分鐘的連續音訊,並支援多達四位不同講者,以模擬自然的對話。合成語音極具表現力,聽起來自然流暢,並具備真實的停頓、重音和情緒變化,非常適合播客、長篇敘事、有聲書或多角色對話。
有別於許多僅限 1 至 2 名發言者的傳統 TTS 模型,VibeVoice-TTS 在長篇內容與多發言者的一致性方面實現了重大突破。其架構結合了連續語音分詞器(包含聲學與語義分析)與低幀率(7.5Hz),大幅提升了長序列的運算效率。
VibeVoice-Realtime-0.5B:延遲約 300 毫秒的即時語音合成
VibeVoice-Realtime-0.5B專為即時應用設計,支援串流文字輸入,首音延遲約 300 毫秒,同時仍能生成長達 10 分鐘的音訊。此模型特別適合需要即時回饋的互動式應用,例如即時語音助理或直播配音。
此外,該專案還引入了實驗性的發音者支援功能,包含多國語言發音及多種英語風格變體,為開發者提供更豐富的自訂選項。
AIbase 評析:微軟將 VibeVoice 開源,不僅降低了高性能語音 AI 的入門門檻,更提供了一套完整的本地部署解決方案。該專案曾因潛在的濫用風險而短暫下架,但在實施音訊水印和可聽見的免責聲明等安全措施後重新上線,體現了負責任的 AI 開發原則。開發者現在可從 GitHub 和 Hugging Face 取得模型權重,並透過 Colab 等平台快速進行測試。
隨著開源社群持續貢獻(包括針對 Apple Silicon 的優化),VibeVoice 勢將加速在內容創作、輔助技術工具及語音互動領域的應用。有興趣的開發者可造訪微軟的官方專案頁面進行進一步探索。
專案網址:https://github.com/microsoft/VibeVoice
相關文章
Github Copilot的基於令牌的計費方式引發了開發者的強烈不滿
微軟GitHub Copilot的黃金時代可能即將結束,尤其是對個人使用者而言。該公司正從統一的訂閱費模式轉向基於代幣的計費方式,這可能會大幅增加使用成本。雖然大型企業或許還能承受這種變化,但小型企業和自由職業者可能會發現新的收費機制讓他們的月預算難以承受。這些變更將於6月1日正式生效,屆時使用者將按照工作中消耗的代幣數量來支付費用,而不再是按每次請求收取固定費用。一些開發者受到這一財務變動的影響,在Reddit和X平臺上表達了他們對這種看似過高的成本增加的擔憂。一位Redditor最近寫道:“
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
相關專題推薦
評論 (0)
0/500
微軟最近開源了一套名為VibeVoice 的尖端語音 AI 模型系列,具備自動語音辨識(ASR)和文字轉語音(TTS)等功能。 憑藉其強大的長音訊處理能力、自然的多發言人對話生成功能,以及即時、低延遲的表現,該專案迅速引起開發者社群的關注,目前在 GitHub 上已累積約 27,000 顆星。
VibeVoice 作為採用 MIT 授權的開源研究框架發布,支援本地部署且無需支付雲端訂閱費用,旨在促進語音合成領域的合作與創新。該模型系列包含三個核心成員,各自針對傳統語音 AI 中的特定挑戰進行優化,例如長序列處理、發言人一致性及自然流暢度。

VibeVoice-ASR-7B:強大的結構化語音轉文字工具,可處理長達 60 分鐘的音訊
VibeVoice-ASR-7B是一款統一的語音轉文字模型,能夠在單次處理中處理長達 60 分鐘的音訊檔案,並直接輸出結構化文字記錄。輸出結果會識別說話者、提供精確的時間戳記,並詳述語音內容,同時支援自訂熱詞以提升專有名詞或技術術語的辨識準確度。 支援超過 50 種語言,非常適合用於長篇會議錄音和播客轉錄等複雜情境。
社群開發者已基於此模型開發出實用工具,例如適用於 macOS 和 Windows 的語音輸入法「Vibing」。使用者反饋顯示其在速度與準確度方面表現優異,顯著提升了日常語音輸入的效率。
VibeVoice-TTS-1.5B:支援多達 90 分鐘、多名講者的生動語音生成
VibeVoice-TTS-1.5B是核心文字轉語音模型,能一次生成長達 90 分鐘的連續音訊,並支援多達四位不同講者,以模擬自然的對話。合成語音極具表現力,聽起來自然流暢,並具備真實的停頓、重音和情緒變化,非常適合播客、長篇敘事、有聲書或多角色對話。
有別於許多僅限 1 至 2 名發言者的傳統 TTS 模型,VibeVoice-TTS 在長篇內容與多發言者的一致性方面實現了重大突破。其架構結合了連續語音分詞器(包含聲學與語義分析)與低幀率(7.5Hz),大幅提升了長序列的運算效率。
VibeVoice-Realtime-0.5B:延遲約 300 毫秒的即時語音合成
VibeVoice-Realtime-0.5B專為即時應用設計,支援串流文字輸入,首音延遲約 300 毫秒,同時仍能生成長達 10 分鐘的音訊。此模型特別適合需要即時回饋的互動式應用,例如即時語音助理或直播配音。
此外,該專案還引入了實驗性的發音者支援功能,包含多國語言發音及多種英語風格變體,為開發者提供更豐富的自訂選項。
AIbase 評析:微軟將 VibeVoice 開源,不僅降低了高性能語音 AI 的入門門檻,更提供了一套完整的本地部署解決方案。該專案曾因潛在的濫用風險而短暫下架,但在實施音訊水印和可聽見的免責聲明等安全措施後重新上線,體現了負責任的 AI 開發原則。開發者現在可從 GitHub 和 Hugging Face 取得模型權重,並透過 Colab 等平台快速進行測試。
隨著開源社群持續貢獻(包括針對 Apple Silicon 的優化),VibeVoice 勢將加速在內容創作、輔助技術工具及語音互動領域的應用。有興趣的開發者可造訪微軟的官方專案頁面進行進一步探索。
專案網址:https://github.com/microsoft/VibeVoice
Github Copilot的基於令牌的計費方式引發了開發者的強烈不滿
微軟GitHub Copilot的黃金時代可能即將結束,尤其是對個人使用者而言。該公司正從統一的訂閱費模式轉向基於代幣的計費方式,這可能會大幅增加使用成本。雖然大型企業或許還能承受這種變化,但小型企業和自由職業者可能會發現新的收費機制讓他們的月預算難以承受。這些變更將於6月1日正式生效,屆時使用者將按照工作中消耗的代幣數量來支付費用,而不再是按每次請求收取固定費用。一些開發者受到這一財務變動的影響,在Reddit和X平臺上表達了他們對這種看似過高的成本增加的擔憂。一位Redditor最近寫道:“
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。





首頁






