选项
首页
新闻
微软的VibeVoice AI系列开源,支持长达90分钟的对话,GitHub星标数突破2.7万

微软的VibeVoice AI系列开源,支持长达90分钟的对话,GitHub星标数突破2.7万

2026-05-28
51

微软最近开源了一套名为VibeVoice 的尖端语音 AI 模型系列,具备自动语音识别(ASR)和文本转语音(TTS)等功能。 得益于其强大的长音频处理能力、自然的多说话者对话生成以及实时低延迟的性能表现,该项目迅速吸引了开发者社区的关注,目前已在GitHub上收获了约27,000个星标。

VibeVoice作为基于MIT许可证的开源研究框架发布,支持本地部署且无需支付云订阅费用,旨在促进语音合成领域的协作与创新。该模型系列包含三个核心成员,分别针对传统语音AI中的特定挑战,例如长序列处理、说话人一致性以及自然流畅性。

image.png

VibeVoice-ASR-7B:强大的结构化语音转文本工具,支持处理长达 60 分钟的音频

VibeVoice-ASR-7B是一款统一的语音转文本模型,能够单次处理长达 60 分钟的音频文件,并直接输出结构化转录文本。其输出结果可识别说话者、提供精确的时间戳并详细记录语音内容,同时支持自定义热词以提高专有名词或技术术语的识别准确率。 该模型支持 50 多种语言,非常适合处理长篇会议录音和播客转录等复杂场景。

社区开发者已基于该模型开发出实用工具,例如适用于 macOS 和 Windows 的语音输入法Vibing。用户反馈显示其在速度和准确性方面表现优异,显著提升了日常语音输入效率。

VibeVoice-TTS-1.5B:支持多达 90 分钟、多说话人的富有表现力的语音生成

VibeVoice-TTS-1.5B是核心文本转语音模型,能够一次性生成长达 90 分钟的连续音频,并支持多达四位不同说话者进行自然的对话模拟。生成的语音富有表现力,听起来自然流畅,包含真实的停顿、重音和情感变化,非常适合播客、长篇叙述、有声读物或多角色对话。

与许多仅支持1-2名说话者的传统TTS模型不同,VibeVoice-TTS在长篇内容和多说话者一致性方面实现了重大突破。其架构将连续语音分词器(声学和语义)与低帧率(7.5Hz)相结合,显著提升了长序列的计算效率。

VibeVoice-Realtime-0.5B:延迟约 300 毫秒的实时语音合成

VibeVoice-Realtime-0.5B专为实时应用设计,支持流式文本输入,首次音频输出延迟约为300毫秒,同时仍能生成长达10分钟的音频。该模型特别适用于需要即时反馈的交互式应用,例如实时语音助手或直播配音。

此外,该项目引入了实验性的发音人支持功能,涵盖多语言语音及多种英语风格变体,为开发者提供了更丰富的定制选项。

AIbase 评测:微软将 VibeVoice 开源不仅降低了高性能语音 AI 的入门门槛,还提供了一套完整的本地部署解决方案。该项目曾因潜在的滥用风险而短暂下线,但在实施了音频水印和可听见的免责声明等安全措施后重新上线,体现了负责任的 AI 开发原则。开发者现在可以从 GitHub 和 Hugging Face 获取模型权重,并通过 Colab 等平台快速进行测试。

随着开源社区持续贡献(包括针对 Apple Silicon 的优化),VibeVoice 有望加速其在内容创作、辅助技术及语音交互领域的应用。感兴趣的开发者可访问微软官方项目页面进行进一步探索。

项目地址:https://github.com/microsoft/VibeVoice

相关文章
SpaceX的IPO申请文件重点体现了其在卫星互联网和人工智能领域的发展雄心 SpaceX的IPO申请文件重点体现了其在卫星互联网和人工智能领域的发展雄心 在为即将进行的IPO提交的S-1注册文件中,SpaceX公布了一系列令人瞩目的业务数据,这些数据凸显了其在航空航天通信和人工智能领域的强大实力:Starlink用户数突破1000万:截至2026年第一季度,全球付费Starlink用户数量已达到1030万,这一数字在过去一年内翻了一番。这一增长充分证明了作为全球最大的近地轨道卫星星座,Starlink在宽带和移动通信领域的领先地位。目前该卫星网络由大约9600颗卫星组成,这些卫星占在轨所有活跃卫星总数的65%。Grok与X人工智能生态体系:通
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代 阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代 2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型 奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型 最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重
相关专题推荐
视频创作 播客创作者必备的顶级AI视频制作工具:将音频波形转化为引人入胜的谈话视频
播客创作者必备的顶级AI视频制作工具:将音频波形转化为引人入胜的谈话视频

立即访问 XIX.AI,探索 2026 年最适合播客创作者的 AI 视频制作工具。我们精心筛选并广受好评的榜单汇集了多款强大工具,可轻松将您的音频转化为引人入胜的“谈话头”视频。通过实际测试和每周更新的排名,对比免费与付费选项。立即开启您的视觉叙事新优势。

10 个工具
xix.ai
聊天机器人 使用这些角色扮演工具,创作属于你的AI爱情故事
使用这些角色扮演工具,创作属于你的AI爱情故事

探索2026年最新、最受好评的AI角色扮演工具,打造身临其境的叙事体验。XIX.AI精心整理的这份清单汇集了功能强大、颠覆传统的助手,助您释放创意叙事潜力,挖掘情感深度。通过实际测试对比免费与付费选项。立即开启您的独特旅程。

10 个工具
xix.ai
文字转语音 独立游戏开发者必备的顶级AI配音工具:为RPG和视觉小说节省配音时间
独立游戏开发者必备的顶级AI配音工具:为RPG和视觉小说节省配音时间

探索2026年最适合游戏开发者的AI配音工具!XIX.AI精心整理的这份清单汇集了广受好评、能彻底改变游戏开发格局的解决方案,助您在角色扮演游戏(RPG)和视觉小说的配音制作中节省时间和成本。了解免费与付费版本的对比分析、实际测试结果以及每周更新的排行榜。立即找到最适合您的配音工具吧!

10 个工具
xix.ai
教育与学习 最佳人工智能间隔重复学习工具:帮助医学生和法律专业学生优化学习计划
最佳人工智能间隔重复学习工具:帮助医学生和法律专业学生优化学习计划

探索由 XIX.AI 精心挑选的 2026 年最佳 AI 间隔重复学习工具。我们推荐的这些极具创新性的工具能帮助医学和法律专业的学生优化学习计划,从而提高知识记忆效果。通过真实案例测试和每周更新的排名信息,你可以了解免费选项与付费选项之间的差异。现在就开启你的学习优势吧!

10 个工具
xix.ai
视频创作 最适合剧本创作和视觉叙事的AI文本转视频平台
最适合剧本创作和视觉叙事的AI文本转视频平台

2026年最新最佳AI文字转视频平台:备受好评的剧本创作与视觉叙事工具。探索这些功能强大、颠覆传统的解决方案,将您的文字转化为引人入胜的视频。通过我们每周更新的排行榜和实际测试,对比免费与付费选项。找到最适合您的平台,激发创意,提升效率。立即访问XIX.AI,探索精心精选的优质平台。

10 个工具
xix.ai
聊天机器人 AI多智能体编排器:通过自然语言设计复杂的自动化工作流程
AI多智能体编排器:通过自然语言设计复杂的自动化工作流程

2026最新资讯:探索最优秀的人工智能多智能体协调工具,通过自然语言设计复杂的自动化工作流程。我们精心挑选的列表中包含了评分最高、功能强大的平台,这些平台能够实现无缝的任务自动化和智能化的流程管理。对比免费与付费选项,并了解实际应用中的效果。借助XIX.AI每周更新的专家排名,让你在人工智能领域取得领先优势。

10 个工具
xix.ai
评论 (0)
0/500
OR