Hume AI 发布 TADA:一款速度提升 5 倍且无幻听现象的开源移动端语音合成系统

Hume AI 已将其最新的语音生成模型 TADA(文本-声学双对齐)开源。这一基于大型语言模型构建的文本转语音(TTS)系统,采用了创新的文本与声学双对齐架构。该方法显著提升了生成效率和可靠性,并拓展了其实际应用范围。
据官方详细介绍,TADA 在文本令牌与声学表示之间建立了严格的 1:1 同步关系。该架构彻底解决了传统基于 LLM 的 TTS 系统中常见的令牌级内容幻觉问题。在涉及 1,000 多个测试样本的评估中,该模型未出现任何内容幻觉现象。
在性能方面,TADA的音频生成速度比同类LLM TTS系统快五倍以上。其资源利用率也极为出色,每秒音频仅需2-3帧的计算资源。相比之下,传统方案通常需要12.5至75帧。这种高效性使该模型能够在智能手机和边缘设备等低功耗硬件上进行本地推理,从而无需依赖云服务器。
TADA 提供多语言支持,包括中文,其多语言版本基于 Llama3.23B 参数规模。 本次发布包含1B(主要针对英语)和3B多语言预训练模型。在2048个令牌的上下文窗口内,该模型单次处理即可生成约700秒的连续音频。这一能力远超传统解决方案——在相同的令牌限制下,后者通常仅能生成约70秒的音频。
其关键创新在于同步转录功能。在生成语音的同时,模型会并行输出对应的文本转录。这一过程省去了额外的自动语音识别(ASR)步骤,从而实现了文本输出的零延迟。该功能对于实时字幕生成、语音交互系统及内容创作工具尤为重要。
在人类主观评估中,TADA 在自然度和语音相似度两项指标上均位列第二。它超越了多个参数规模更大、训练数据更丰富的系统,展现出极具竞争力的音频质量。
链接:https://huggingface.co/collections/HumeAI/tada
相关文章
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型
最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重
杭州市上城区推出了浙江省首个基于AIGC技术的视听产业“黄金十项措施”,并设立了50亿规模的产业发展基金。
16日,AIGC视听产业创新生态大会在杭州上城区举行。会议期间,该省推出了针对AIGC视听产业的的首项专项政策——“黄金十项措施”。这项政策涵盖了技术创新、成本降低、内容质量提升、人才培养以及全球发展等多个方面。这些政策提供了强有力的激励措施。对于技术创新领域,凡是专注于AIGC工具、AI虚拟拍摄和AI交互叙事系统的研究开发项目,均可获得最高300万元的补贴。而对于高质量的内容创作,那些在年内通过知名平台发布的AIGC视听作品,每部可获得最高30万元的奖励,每家企业的年度奖励总额上限为100万
北京工业大学就包括人工智能模型上下文协议在内的121项行业标准征求公众意见
中国工业和信息化部正式发布通知,征求公众对121项行业标准化的意见,其中包括“人工智能安全治理模型上下文协议的应用安全要求”。这一公告标志着中国在建立人工智能基础标准和安全监管框架方面取得了重要进展。此次公开征求意见的重点是针对该模型上下文协议的应用安全问题,旨在通过标准化的技术规范来解决多模态交互、长文本处理以及跨平台调用过程中出现的协议兼容性和数据安全方面的问题。
相关专题推荐
评论 (1)
0/500

Hume AI 已将其最新的语音生成模型 TADA(文本-声学双对齐)开源。这一基于大型语言模型构建的文本转语音(TTS)系统,采用了创新的文本与声学双对齐架构。该方法显著提升了生成效率和可靠性,并拓展了其实际应用范围。
据官方详细介绍,TADA 在文本令牌与声学表示之间建立了严格的 1:1 同步关系。该架构彻底解决了传统基于 LLM 的 TTS 系统中常见的令牌级内容幻觉问题。在涉及 1,000 多个测试样本的评估中,该模型未出现任何内容幻觉现象。
在性能方面,TADA的音频生成速度比同类LLM TTS系统快五倍以上。其资源利用率也极为出色,每秒音频仅需2-3帧的计算资源。相比之下,传统方案通常需要12.5至75帧。这种高效性使该模型能够在智能手机和边缘设备等低功耗硬件上进行本地推理,从而无需依赖云服务器。
TADA 提供多语言支持,包括中文,其多语言版本基于 Llama3.23B 参数规模。 本次发布包含1B(主要针对英语)和3B多语言预训练模型。在2048个令牌的上下文窗口内,该模型单次处理即可生成约700秒的连续音频。这一能力远超传统解决方案——在相同的令牌限制下,后者通常仅能生成约70秒的音频。
其关键创新在于同步转录功能。在生成语音的同时,模型会并行输出对应的文本转录。这一过程省去了额外的自动语音识别(ASR)步骤,从而实现了文本输出的零延迟。该功能对于实时字幕生成、语音交互系统及内容创作工具尤为重要。
在人类主观评估中,TADA 在自然度和语音相似度两项指标上均位列第二。它超越了多个参数规模更大、训练数据更丰富的系统,展现出极具竞争力的音频质量。
链接:https://huggingface.co/collections/HumeAI/tada
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型
最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重
杭州市上城区推出了浙江省首个基于AIGC技术的视听产业“黄金十项措施”,并设立了50亿规模的产业发展基金。
16日,AIGC视听产业创新生态大会在杭州上城区举行。会议期间,该省推出了针对AIGC视听产业的的首项专项政策——“黄金十项措施”。这项政策涵盖了技术创新、成本降低、内容质量提升、人才培养以及全球发展等多个方面。这些政策提供了强有力的激励措施。对于技术创新领域,凡是专注于AIGC工具、AI虚拟拍摄和AI交互叙事系统的研究开发项目,均可获得最高300万元的补贴。而对于高质量的内容创作,那些在年内通过知名平台发布的AIGC视听作品,每部可获得最高30万元的奖励,每家企业的年度奖励总额上限为100万
北京工业大学就包括人工智能模型上下文协议在内的121项行业标准征求公众意见
中国工业和信息化部正式发布通知,征求公众对121项行业标准化的意见,其中包括“人工智能安全治理模型上下文协议的应用安全要求”。这一公告标志着中国在建立人工智能基础标准和安全监管框架方面取得了重要进展。此次公开征求意见的重点是针对该模型上下文协议的应用安全问题,旨在通过标准化的技术规范来解决多模态交互、长文本处理以及跨平台调用过程中出现的协议兼容性和数据安全方面的问题。





首页






