阿里巴巴的通一實驗室將 Fun-CineForge 開源,解決多發言人配音的難題
在電影和動畫等高規格製作中,傳統的 AI 配音技術往往難以勝任,因為精準捕捉細膩的情感高潮與完美同步的嘴型動畫至關重要。為解決這一核心產業挑戰,同益實驗室正式推出並開源了這款開創性的電影級多場景多模態配音模型——Fun-CineForge 。
彌合視聽鴻溝:實現無縫同步的四大支柱框架
Fun-CineForge 並非僅依賴基礎的文字轉語音技術,而是專為掌握專業配音的四大關鍵維度而設計:
口型同步:確保合成語音與螢幕角色嘴型動作以極高精度對齊。
情感表達:透過分析面部線索與情境指令,為聲音注入真實的人類情感。
聲音一致性:在複雜的多角色對話場景中,為特定角色維持穩定且可辨識的聲音特徵。
時間對齊:即使發言者不在畫面中或部分被遮擋,也能以毫秒級精準度插入對白。
核心創新:開創性的「時間模態」與高保真資料集
Fun-CineForge 的技術飛躍源自其獨特的「數據+模型」協同設計哲學:

CineDub 高品質資料集:同益實驗室亦已開源自動化的 CineDub 資料集建構管線。透過「思維鏈」錯誤修正機制,將中英文文字的轉錄錯誤率降低至約 1% 至 2%,並將發言人標定錯誤率大幅削減至低至 1.2%。
四模態融合架構:該模型首創整合「時間模態」,共同建模視覺輸入(唇形與表情)、文字(對白與情感語境)及音訊(語音參考)。此融合技術能在具挑戰性的場景中實現精準同步,包括沒有可見臉部的場景。
卓越表現:開創真實的多角色對話配音
基準測試結果顯示,Fun-CineForge 在關鍵指標上(包括單字錯誤率(WER/CER)、唇形同步(LSE-C/D)及聲音相似度)均大幅超越 DeepDubber-V1 等基準模型。其里程碑式的成就在於首創精準處理二重唱與多人對話的能力,並在長達 30 秒的影片片段中展現出卓越的穩健性。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
相關文章
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
相關專題推薦
評論 (0)
0/500
在電影和動畫等高規格製作中,傳統的 AI 配音技術往往難以勝任,因為精準捕捉細膩的情感高潮與完美同步的嘴型動畫至關重要。為解決這一核心產業挑戰,同益實驗室正式推出並開源了這款開創性的電影級多場景多模態配音模型——
彌合視聽鴻溝:實現無縫同步的四大支柱框架
Fun-CineForge 並非僅依賴基礎的文字轉語音技術,而是專為掌握專業配音的四大關鍵維度而設計:
口型同步:確保合成語音與螢幕角色嘴型動作以極高精度對齊。
情感表達:透過分析面部線索與情境指令,為聲音注入真實的人類情感。
聲音一致性:在複雜的多角色對話場景中,為特定角色維持穩定且可辨識的聲音特徵。
時間對齊:即使發言者不在畫面中或部分被遮擋,也能以毫秒級精準度插入對白。
核心創新:開創性的「時間模態」與高保真資料集
Fun-CineForge 的技術飛躍源自其獨特的「數據+模型」協同設計哲學:

CineDub 高品質資料集:同益實驗室亦已開源自動化的 CineDub 資料集建構管線。透過「思維鏈」錯誤修正機制,將中英文文字的轉錄錯誤率降低至約 1% 至 2%,並將發言人標定錯誤率大幅削減至低至 1.2%。
四模態融合架構:該模型首創整合「時間模態」,共同建模視覺輸入(唇形與表情)、文字(對白與情感語境)及音訊(語音參考)。此融合技術能在具挑戰性的場景中實現精準同步,包括沒有可見臉部的場景。
卓越表現:開創真實的多角色對話配音
基準測試結果顯示,Fun-CineForge 在關鍵指標上(包括單字錯誤率(WER/CER)、唇形同步(LSE-C/D)及聲音相似度)均大幅超越 DeepDubber-V1 等基準模型。其里程碑式的成就在於首創精準處理二重唱與多人對話的能力,並在長達 30 秒的影片片段中展現出卓越的穩健性。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版





首頁






