微软的VibeVoice AI系列开源,支持长达90分钟的对话,GitHub星标数突破2.7万
微软最近开源了一套名为VibeVoice 的尖端语音 AI 模型系列,具备自动语音识别(ASR)和文本转语音(TTS)等功能。 得益于其强大的长音频处理能力、自然的多说话者对话生成以及实时低延迟的性能表现,该项目迅速吸引了开发者社区的关注,目前已在GitHub上收获了约27,000个星标。
VibeVoice作为基于MIT许可证的开源研究框架发布,支持本地部署且无需支付云订阅费用,旨在促进语音合成领域的协作与创新。该模型系列包含三个核心成员,分别针对传统语音AI中的特定挑战,例如长序列处理、说话人一致性以及自然流畅性。

VibeVoice-ASR-7B:强大的结构化语音转文本工具,支持处理长达 60 分钟的音频
VibeVoice-ASR-7B是一款统一的语音转文本模型,能够单次处理长达 60 分钟的音频文件,并直接输出结构化转录文本。其输出结果可识别说话者、提供精确的时间戳并详细记录语音内容,同时支持自定义热词以提高专有名词或技术术语的识别准确率。 该模型支持 50 多种语言,非常适合处理长篇会议录音和播客转录等复杂场景。
社区开发者已基于该模型开发出实用工具,例如适用于 macOS 和 Windows 的语音输入法Vibing。用户反馈显示其在速度和准确性方面表现优异,显著提升了日常语音输入效率。
VibeVoice-TTS-1.5B:支持多达 90 分钟、多说话人的富有表现力的语音生成
VibeVoice-TTS-1.5B是核心文本转语音模型,能够一次性生成长达 90 分钟的连续音频,并支持多达四位不同说话者进行自然的对话模拟。生成的语音富有表现力,听起来自然流畅,包含真实的停顿、重音和情感变化,非常适合播客、长篇叙述、有声读物或多角色对话。
与许多仅支持1-2名说话者的传统TTS模型不同,VibeVoice-TTS在长篇内容和多说话者一致性方面实现了重大突破。其架构将连续语音分词器(声学和语义)与低帧率(7.5Hz)相结合,显著提升了长序列的计算效率。
VibeVoice-Realtime-0.5B:延迟约 300 毫秒的实时语音合成
VibeVoice-Realtime-0.5B专为实时应用设计,支持流式文本输入,首次音频输出延迟约为300毫秒,同时仍能生成长达10分钟的音频。该模型特别适用于需要即时反馈的交互式应用,例如实时语音助手或直播配音。
此外,该项目引入了实验性的发音人支持功能,涵盖多语言语音及多种英语风格变体,为开发者提供了更丰富的定制选项。
AIbase 评测:微软将 VibeVoice 开源不仅降低了高性能语音 AI 的入门门槛,还提供了一套完整的本地部署解决方案。该项目曾因潜在的滥用风险而短暂下线,但在实施了音频水印和可听见的免责声明等安全措施后重新上线,体现了负责任的 AI 开发原则。开发者现在可以从 GitHub 和 Hugging Face 获取模型权重,并通过 Colab 等平台快速进行测试。
随着开源社区持续贡献(包括针对 Apple Silicon 的优化),VibeVoice 有望加速其在内容创作、辅助技术及语音交互领域的应用。感兴趣的开发者可访问微软官方项目页面进行进一步探索。
项目地址:https://github.com/microsoft/VibeVoice
相关文章
SpaceX的IPO申请文件重点体现了其在卫星互联网和人工智能领域的发展雄心
在为即将进行的IPO提交的S-1注册文件中,SpaceX公布了一系列令人瞩目的业务数据,这些数据凸显了其在航空航天通信和人工智能领域的强大实力:Starlink用户数突破1000万:截至2026年第一季度,全球付费Starlink用户数量已达到1030万,这一数字在过去一年内翻了一番。这一增长充分证明了作为全球最大的近地轨道卫星星座,Starlink在宽带和移动通信领域的领先地位。目前该卫星网络由大约9600颗卫星组成,这些卫星占在轨所有活跃卫星总数的65%。Grok与X人工智能生态体系:通
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代
2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型
最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重
相关专题推荐
评论 (0)
0/500
微软最近开源了一套名为VibeVoice 的尖端语音 AI 模型系列,具备自动语音识别(ASR)和文本转语音(TTS)等功能。 得益于其强大的长音频处理能力、自然的多说话者对话生成以及实时低延迟的性能表现,该项目迅速吸引了开发者社区的关注,目前已在GitHub上收获了约27,000个星标。
VibeVoice作为基于MIT许可证的开源研究框架发布,支持本地部署且无需支付云订阅费用,旨在促进语音合成领域的协作与创新。该模型系列包含三个核心成员,分别针对传统语音AI中的特定挑战,例如长序列处理、说话人一致性以及自然流畅性。

VibeVoice-ASR-7B:强大的结构化语音转文本工具,支持处理长达 60 分钟的音频
VibeVoice-ASR-7B是一款统一的语音转文本模型,能够单次处理长达 60 分钟的音频文件,并直接输出结构化转录文本。其输出结果可识别说话者、提供精确的时间戳并详细记录语音内容,同时支持自定义热词以提高专有名词或技术术语的识别准确率。 该模型支持 50 多种语言,非常适合处理长篇会议录音和播客转录等复杂场景。
社区开发者已基于该模型开发出实用工具,例如适用于 macOS 和 Windows 的语音输入法Vibing。用户反馈显示其在速度和准确性方面表现优异,显著提升了日常语音输入效率。
VibeVoice-TTS-1.5B:支持多达 90 分钟、多说话人的富有表现力的语音生成
VibeVoice-TTS-1.5B是核心文本转语音模型,能够一次性生成长达 90 分钟的连续音频,并支持多达四位不同说话者进行自然的对话模拟。生成的语音富有表现力,听起来自然流畅,包含真实的停顿、重音和情感变化,非常适合播客、长篇叙述、有声读物或多角色对话。
与许多仅支持1-2名说话者的传统TTS模型不同,VibeVoice-TTS在长篇内容和多说话者一致性方面实现了重大突破。其架构将连续语音分词器(声学和语义)与低帧率(7.5Hz)相结合,显著提升了长序列的计算效率。
VibeVoice-Realtime-0.5B:延迟约 300 毫秒的实时语音合成
VibeVoice-Realtime-0.5B专为实时应用设计,支持流式文本输入,首次音频输出延迟约为300毫秒,同时仍能生成长达10分钟的音频。该模型特别适用于需要即时反馈的交互式应用,例如实时语音助手或直播配音。
此外,该项目引入了实验性的发音人支持功能,涵盖多语言语音及多种英语风格变体,为开发者提供了更丰富的定制选项。
AIbase 评测:微软将 VibeVoice 开源不仅降低了高性能语音 AI 的入门门槛,还提供了一套完整的本地部署解决方案。该项目曾因潜在的滥用风险而短暂下线,但在实施了音频水印和可听见的免责声明等安全措施后重新上线,体现了负责任的 AI 开发原则。开发者现在可以从 GitHub 和 Hugging Face 获取模型权重,并通过 Colab 等平台快速进行测试。
随着开源社区持续贡献(包括针对 Apple Silicon 的优化),VibeVoice 有望加速其在内容创作、辅助技术及语音交互领域的应用。感兴趣的开发者可访问微软官方项目页面进行进一步探索。
项目地址:https://github.com/microsoft/VibeVoice
SpaceX的IPO申请文件重点体现了其在卫星互联网和人工智能领域的发展雄心
在为即将进行的IPO提交的S-1注册文件中,SpaceX公布了一系列令人瞩目的业务数据,这些数据凸显了其在航空航天通信和人工智能领域的强大实力:Starlink用户数突破1000万:截至2026年第一季度,全球付费Starlink用户数量已达到1030万,这一数字在过去一年内翻了一番。这一增长充分证明了作为全球最大的近地轨道卫星星座,Starlink在宽带和移动通信领域的领先地位。目前该卫星网络由大约9600颗卫星组成,这些卫星占在轨所有活跃卫星总数的65%。Grok与X人工智能生态体系:通
阿里巴巴Tuhao M890上市,凭借三重性能优势开启芯片-云-模型-推理的全栈代理时代
2026年5月20日,在阿里云峰会上,阿里云宣布完成了专为“智能体时代”设计的全栈技术系统升级。这一变革重塑了整个技术体系——从底层芯片和云平台到模型与推理方案。此次升级使阿里云成为一家能够让大量智能体实现24/7连续运行的“AI工厂”,从而超越了单纯为人类用户提供服务的范畴。1. 核心基础:腾迅振武M890芯片与超级节点服务器此次升级的核心是腾迅推出的新一代AI芯片——振武M890,该芯片集训练与推理功能于一体。性能提升:M890拥有144GB的内存,其性能是前代产品振武810E的三倍。
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型
最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重





首页






