小米的OmniVoice开源语音合成模型支持600多种语言的零样本克隆
近日,小米下一代Kaldi团队(k2-fsa)正式开源了OmniVoice——一款支持600多种语言的大型多语言零样本文本转语音模型。该模型在中文、英语及多语言合成等多项关键基准测试中均取得了业界领先的成绩,标志着该领域取得重大突破。
领先性能:中文WER低至0.84%,多语言测试中超越主流模型
在Seed-TTS中文测试集上,OmniVoice实现了仅0.84%的极低词错误率(WER)。在多语言评估中,其相似度(SIM-o)和WER得分均超越了ElevenLabs v2和MiniMax等知名商用模型,展现出卓越的语音自然度和清晰度。

超快推理:RTF低至0.025,速度比实时快40倍
OmniVoice的实时因子(RTF)低至0.025,这意味着其合成速度远超实时要求。这一巨大的效率提升使得在实际应用中能够快速生成长篇语音,极大提升了用户体验。
核心架构创新:受扩散模型启发的离散非自回归设计
OmniVoice 采用受扩散语言模型启发的创新离散非自回归架构。它通过单一步骤将文本转换为语音,省去了传统的中间语义令牌处理环节。这种精简设计在保持高输出质量的同时简化了处理流程。结合预训练大语言模型(LLM)的初始化,全码本随机掩码策略进一步提升了训练效率,并改善了最终语音的清晰度和可懂度。
灵活的语音克隆与定制:仅需 3-10 秒音频即可实现
该模型仅需3-10秒的参考音频,即可实现高质量的零样本语音克隆。用户还可通过自然语言提示自定义语音属性,指定性别、年龄、音高、口音、方言,甚至包括耳语等特殊效果。
支持非语言符号与精细发音控制
OmniVoice 能处理 [笑声] 等非语言符号,并支持通过拼音或音标进行发音校正。这使其特别适合中文及各类方言的精准合成。
支持 600 多种语言:助力少数民族语言和濒危语言的数字保存
OmniVoice 的核心亮点在于其广泛的语言覆盖范围,既能高效支持主流语言,也能支持大量资源匮乏的语言。对于少数民族语言和濒危语言,它仅需极少的样本数据即可生成高质量语音,为数字语言保存和文化保护提供了巨大潜力。
OmniVoice的源代码和预训练模型现已开源至GitHub和Hugging Face,开发者可将其部署在本地或集成到应用程序中。AIbase将持续关注社区反馈和实际应用案例,并鼓励开发者分享使用体验。
项目链接:https://github.com/k2-fsa/OmniVoice
相关文章
百度健康近期内部测试了AI医生助手“DoctorClaw”,用于学术文献检索和日常办公辅助
据报道,百度健康已开始对一款专为医生设计的专业AI智能助手进行内部测试。该产品内部代号为“DoctorClaw”(龙虾医生版),标志着百度在医疗领域部署大型语言模型方面迈出了重要一步。知情人士透露,该项目仍处于封闭开发阶段,目前已进入内部测试。虽然具体的产品形态尚未完全披露,但已接近上线。 在功能方面,DoctorClaw初期将侧重于学术文献检索和常规诊疗辅助。但其长期战略旨在深度融入临床诊断、医
Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论
3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关
StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物
今年首场StrictlyVC活动即将登陆旧金山,时间比你想象的要早。 4月30日,我们在菲律宾文化中心(Sentro Filipino Cultural Center)举办的聚会门票仍在热售中,届时将有阵容强大的演讲嘉宾阵容。除了StrictlyVC一贯以人脉拓展和社区互动著称外,本次旧金山活动对于寻求最新融资洞见的AI创新者和创始人而言,将具有特别重要的价值。谁将登台门票现已开售,但如果您此前未
相关专题推荐
评论 (0)
0/500
近日,小米下一代Kaldi团队(k2-fsa)正式开源了OmniVoice——一款支持600多种语言的大型多语言零样本文本转语音模型。该模型在中文、英语及多语言合成等多项关键基准测试中均取得了业界领先的成绩,标志着该领域取得重大突破。
领先性能:中文WER低至0.84%,多语言测试中超越主流模型
在Seed-TTS中文测试集上,OmniVoice实现了仅0.84%的极低词错误率(WER)。在多语言评估中,其相似度(SIM-o)和WER得分均超越了ElevenLabs v2和MiniMax等知名商用模型,展现出卓越的语音自然度和清晰度。

超快推理:RTF低至0.025,速度比实时快40倍
OmniVoice的实时因子(RTF)低至0.025,这意味着其合成速度远超实时要求。这一巨大的效率提升使得在实际应用中能够快速生成长篇语音,极大提升了用户体验。
核心架构创新:受扩散模型启发的离散非自回归设计
OmniVoice 采用受扩散语言模型启发的创新离散非自回归架构。它通过单一步骤将文本转换为语音,省去了传统的中间语义令牌处理环节。这种精简设计在保持高输出质量的同时简化了处理流程。结合预训练大语言模型(LLM)的初始化,全码本随机掩码策略进一步提升了训练效率,并改善了最终语音的清晰度和可懂度。
灵活的语音克隆与定制:仅需 3-10 秒音频即可实现
该模型仅需3-10秒的参考音频,即可实现高质量的零样本语音克隆。用户还可通过自然语言提示自定义语音属性,指定性别、年龄、音高、口音、方言,甚至包括耳语等特殊效果。
支持非语言符号与精细发音控制
OmniVoice 能处理 [笑声] 等非语言符号,并支持通过拼音或音标进行发音校正。这使其特别适合中文及各类方言的精准合成。
支持 600 多种语言:助力少数民族语言和濒危语言的数字保存
OmniVoice 的核心亮点在于其广泛的语言覆盖范围,既能高效支持主流语言,也能支持大量资源匮乏的语言。对于少数民族语言和濒危语言,它仅需极少的样本数据即可生成高质量语音,为数字语言保存和文化保护提供了巨大潜力。
OmniVoice的源代码和预训练模型现已开源至GitHub和Hugging Face,开发者可将其部署在本地或集成到应用程序中。AIbase将持续关注社区反馈和实际应用案例,并鼓励开发者分享使用体验。
项目链接:https://github.com/k2-fsa/OmniVoice
百度健康近期内部测试了AI医生助手“DoctorClaw”,用于学术文献检索和日常办公辅助
据报道,百度健康已开始对一款专为医生设计的专业AI智能助手进行内部测试。该产品内部代号为“DoctorClaw”(龙虾医生版),标志着百度在医疗领域部署大型语言模型方面迈出了重要一步。知情人士透露,该项目仍处于封闭开发阶段,目前已进入内部测试。虽然具体的产品形态尚未完全披露,但已接近上线。 在功能方面,DoctorClaw初期将侧重于学术文献检索和常规诊疗辅助。但其长期战略旨在深度融入临床诊断、医
Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论
3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关
StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物
今年首场StrictlyVC活动即将登陆旧金山,时间比你想象的要早。 4月30日,我们在菲律宾文化中心(Sentro Filipino Cultural Center)举办的聚会门票仍在热售中,届时将有阵容强大的演讲嘉宾阵容。除了StrictlyVC一贯以人脉拓展和社区互动著称外,本次旧金山活动对于寻求最新融资洞见的AI创新者和创始人而言,将具有特别重要的价值。谁将登台门票现已开售,但如果您此前未





首页






