阿里巴巴旗下通一推出Fun-CineForge:开源AI模型实现电影级语音合成
3月16日,阿里巴巴通一实验室正式发布并开源了电影级、多场景语音合成多模态模型Fun-CineForge。该模型解决了AI配音中的核心挑战,包括口型同步不匹配、情感表达不足以及多个角色间声音特征不一致等问题,同时引入了一种高质量的数据集构建方法。

在技术层面,Fun-CineForge开创了“时序模态”的概念。与仅关注文本或视觉信息的传统模型不同,它通过精准的时间戳控制,确保语音合成在精确的时间区间内进行。即使在角色被遮挡、镜头频繁切换或面部模糊等复杂的电影场景中,该模型仍能保持高度的视听同步性并严格遵循指令。
配套的开源数据集构建管道CineDub是另一项关键创新。Tongyi Lab 利用大型语言模型的链式推理能力,将原始电影素材自动转换为结构化数据,大幅减少了人工标注的需求。该流程实现了约 1% 的词错误率和仅 1.20% 的说话人分割错误率,为大型模型提供了极具竞争力的训练基础。

Fun-CineForge 现已发布于 GitHub、HuggingFace 及 ModelScope 社区,支持长达 30 秒的视频片段推理。该模型不仅在单人独白场景中表现出色,还为双人对话及多方对话场景提供了专业级支持。这一突破标志着人工智能语音技术正从基础的客户服务和助手角色,向高标准的动画与电影后期制作领域迈进。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
相关文章
Github Copilot的基于令牌的计费方式引发了开发者的强烈不满
微软GitHub Copilot的黄金时代可能即将结束,尤其是对个人用户而言。该公司正从统一的订阅费模式转向基于代币的计费方式,这可能会大幅增加使用成本。虽然大型企业或许还能承受这种变化,但小型企业和自由职业者可能会发现新的收费机制让他们的月预算难以承受。这些变更将于6月1日正式生效,届时用户将按照工作中消耗的代币数量来支付费用,而不再是按每次请求收取固定费用。一些开发者受到这一财务变动的影响,在Reddit和X平台上表达了他们对这种看似过高的成本增加的担忧。一位Redditor最近写道:“
SpaceX的IPO申请文件重点体现了其在卫星互联网和人工智能领域的发展雄心
在为即将进行的IPO提交的S-1注册文件中,SpaceX公布了一系列令人瞩目的业务数据,这些数据凸显了其在航空航天通信和人工智能领域的强大实力:Starlink用户数突破1000万:截至2026年第一季度,全球付费Starlink用户数量已达到1030万,这一数字在过去一年内翻了一番。这一增长充分证明了作为全球最大的近地轨道卫星星座,Starlink在宽带和移动通信领域的领先地位。目前该卫星网络由大约9600颗卫星组成,这些卫星占在轨所有活跃卫星总数的65%。Grok与X人工智能生态体系:通
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代
2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
相关专题推荐
评论 (1)
0/500
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.
3月16日,阿里巴巴通一实验室正式发布并开源了电影级、多场景语音合成多模态模型Fun-CineForge。该模型解决了AI配音中的核心挑战,包括口型同步不匹配、情感表达不足以及多个角色间声音特征不一致等问题,同时引入了一种高质量的数据集构建方法。

在技术层面,Fun-CineForge开创了“时序模态”的概念。与仅关注文本或视觉信息的传统模型不同,它通过精准的时间戳控制,确保语音合成在精确的时间区间内进行。即使在角色被遮挡、镜头频繁切换或面部模糊等复杂的电影场景中,该模型仍能保持高度的视听同步性并严格遵循指令。
配套的开源数据集构建管道CineDub是另一项关键创新。Tongyi Lab 利用大型语言模型的链式推理能力,将原始电影素材自动转换为结构化数据,大幅减少了人工标注的需求。该流程实现了约 1% 的词错误率和仅 1.20% 的说话人分割错误率,为大型模型提供了极具竞争力的训练基础。

Fun-CineForge 现已发布于 GitHub、HuggingFace 及 ModelScope 社区,支持长达 30 秒的视频片段推理。该模型不仅在单人独白场景中表现出色,还为双人对话及多方对话场景提供了专业级支持。这一突破标志着人工智能语音技术正从基础的客户服务和助手角色,向高标准的动画与电影后期制作领域迈进。
GitHub:https://github.com/FunAudioLLM/FunCineForge
HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Github Copilot的基于令牌的计费方式引发了开发者的强烈不满
微软GitHub Copilot的黄金时代可能即将结束,尤其是对个人用户而言。该公司正从统一的订阅费模式转向基于代币的计费方式,这可能会大幅增加使用成本。虽然大型企业或许还能承受这种变化,但小型企业和自由职业者可能会发现新的收费机制让他们的月预算难以承受。这些变更将于6月1日正式生效,届时用户将按照工作中消耗的代币数量来支付费用,而不再是按每次请求收取固定费用。一些开发者受到这一财务变动的影响,在Reddit和X平台上表达了他们对这种看似过高的成本增加的担忧。一位Redditor最近写道:“
SpaceX的IPO申请文件重点体现了其在卫星互联网和人工智能领域的发展雄心
在为即将进行的IPO提交的S-1注册文件中,SpaceX公布了一系列令人瞩目的业务数据,这些数据凸显了其在航空航天通信和人工智能领域的强大实力:Starlink用户数突破1000万:截至2026年第一季度,全球付费Starlink用户数量已达到1030万,这一数字在过去一年内翻了一番。这一增长充分证明了作为全球最大的近地轨道卫星星座,Starlink在宽带和移动通信领域的领先地位。目前该卫星网络由大约9600颗卫星组成,这些卫星占在轨所有活跃卫星总数的65%。Grok与X人工智能生态体系:通
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代
2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
Just tried the demo and honestly blown away by how natural the lip-sync feels now! 😮 Always thought AI dubbing sounded a bit robotic, but this seems like a huge leap. Wonder if this will start being used in indie films or even gaming soon? The open-source move is pretty bold too—curious to see how other companies respond.





首页






