阿里巴巴旗下通一推出 Fun-CineForge:開源 AI 模型實現電影級語音合成
阿里巴巴同易實驗室於3月16日正式推出並開源了電影級、多場景語音合成多模態模型Fun-CineForge。該模型解決了AI配音中的核心挑戰,包括口型同步失準、情感表達不足,以及多個角色間聲音特徵不一致等問題。此外,該模型還引入了一種高品質的資料集建構方法。

在技術層面上,Fun-CineForge 開創了「時序模態」的概念。與僅專注於文字或視覺的傳統模型不同,它透過精準的時間戳控制,確保語音合成在精確的時間區間內進行。即使在角色被遮擋、鏡頭頻繁切換或臉部模糊等複雜的電影場景中,該模型仍能維持高度的影音同步性,並嚴格遵循指令。
隨附的開源CineDub資料集建構流程是另一項關鍵創新。Tongyi Lab 運用大型語言模型的「思維鏈推理」技術,將原始影片素材自動轉化為結構化資料,大幅減少了人工標註的需求。此流程實現了約 1% 的字元錯誤率與僅 1.20% 的發言人標定錯誤率,為大型模型提供了極具競爭力的訓練基礎。

Fun-CineForge 現已於 GitHub、HuggingFace 及 ModelScope 社群上線,支援長達 30 秒的影片片段推論。該模型不僅在單人獨白表現出色,更能為雙人對白及多方對話場景提供專業級支援。這項突破標誌著 AI 語音技術正從基礎的客戶服務與助理角色,邁向高標準的動畫與電影後期製作領域。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
相關文章
Github Copilot的基於令牌的計費方式引發了開發者的強烈不滿
微軟GitHub Copilot的黃金時代可能即將結束,尤其是對個人使用者而言。該公司正從統一的訂閱費模式轉向基於代幣的計費方式,這可能會大幅增加使用成本。雖然大型企業或許還能承受這種變化,但小型企業和自由職業者可能會發現新的收費機制讓他們的月預算難以承受。這些變更將於6月1日正式生效,屆時使用者將按照工作中消耗的代幣數量來支付費用,而不再是按每次請求收取固定費用。一些開發者受到這一財務變動的影響,在Reddit和X平臺上表達了他們對這種看似過高的成本增加的擔憂。一位Redditor最近寫道:“
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
相關專題推薦
評論 (1)
0/500
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.
阿里巴巴同易實驗室於3月16日正式推出並開源了電影級、多場景語音合成多模態模型Fun-CineForge。該模型解決了AI配音中的核心挑戰,包括口型同步失準、情感表達不足,以及多個角色間聲音特徵不一致等問題。此外,該模型還引入了一種高品質的資料集建構方法。

在技術層面上,Fun-CineForge 開創了「時序模態」的概念。與僅專注於文字或視覺的傳統模型不同,它透過精準的時間戳控制,確保語音合成在精確的時間區間內進行。即使在角色被遮擋、鏡頭頻繁切換或臉部模糊等複雜的電影場景中,該模型仍能維持高度的影音同步性,並嚴格遵循指令。
隨附的開源CineDub資料集建構流程是另一項關鍵創新。Tongyi Lab 運用大型語言模型的「思維鏈推理」技術,將原始影片素材自動轉化為結構化資料,大幅減少了人工標註的需求。此流程實現了約 1% 的字元錯誤率與僅 1.20% 的發言人標定錯誤率,為大型模型提供了極具競爭力的訓練基礎。

Fun-CineForge 現已於 GitHub、HuggingFace 及 ModelScope 社群上線,支援長達 30 秒的影片片段推論。該模型不僅在單人獨白表現出色,更能為雙人對白及多方對話場景提供專業級支援。這項突破標誌著 AI 語音技術正從基礎的客戶服務與助理角色,邁向高標準的動畫與電影後期製作領域。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Github Copilot的基於令牌的計費方式引發了開發者的強烈不滿
微軟GitHub Copilot的黃金時代可能即將結束,尤其是對個人使用者而言。該公司正從統一的訂閱費模式轉向基於代幣的計費方式,這可能會大幅增加使用成本。雖然大型企業或許還能承受這種變化,但小型企業和自由職業者可能會發現新的收費機制讓他們的月預算難以承受。這些變更將於6月1日正式生效,屆時使用者將按照工作中消耗的代幣數量來支付費用,而不再是按每次請求收取固定費用。一些開發者受到這一財務變動的影響,在Reddit和X平臺上表達了他們對這種看似過高的成本增加的擔憂。一位Redditor最近寫道:“
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.





首頁






