一年后,Openai尚未发布语音克隆工具
OpenAI的语音引擎:期待已久的发布?
去年三月底,OpenAI推出了其AI服务“语音引擎”的“小规模预览”,承诺仅用15秒语音即可克隆一个人的声音。一年后,该工具仍处于预览模式,没有明确的全面发布计划,甚至不确定是否会正式推出。
广泛推出语音引擎的犹豫可能源于对滥用的担忧,或试图规避监管审查。OpenAI过去因优先考虑炫目产品而忽视安全,以及急于在竞争对手之前上市而受到批评。
一位OpenAI发言人告诉TechCrunch,公司仍在与一小群“可信合作伙伴”测试语音引擎。“我们正在学习合作伙伴如何使用该技术,以提升模型的实用性和安全性,”发言人解释说。“看到它的应用范围,从语音治疗、语言学习到客户支持、视频游戏角色和AI头像,都令人兴奋。”
语音引擎:迄今的历程
语音引擎为OpenAI的文本转语音API和ChatGPT的语音模式提供支持,生成的声音极其自然,高度模仿原始说话者。它将文本转换为语音,仅受某些内容指南的限制。然而,从一开始,推出就受到延迟和发布日期变更的困扰。
在2024年6月的博客文章中,OpenAI详细介绍了语音引擎模型如何预测给定文本的说话者可能发出的声音,考虑不同声音、口音和说话风格。这使模型不仅能从文本生成语音,还能生成反映不同说话者朗读文本的“口述话语”。
最初,语音引擎(当时称为自定义语音)计划于2024年3月7日加入OpenAI的API,根据TechCrunch看到的博客草稿。计划最初向最多100名“可信开发者”提供访问权限,优先考虑开发具有社会效益或展示创新和负责任技术使用的应用。OpenAI已为该服务注册商标,并为“标准”声音设定每百万字符15美元的定价,为“高清质量”声音设定每百万字符30美元。
但在最后时刻,公告被推迟。几周后,OpenAI公布了语音引擎,但没有提供注册选项,仅限2023年底以来合作的小部分开发者访问。
“我们希望就负责任部署合成语音展开对话,探讨社会如何适应这些新能力,”OpenAI在2024年3月底的公告博客中表示。“基于这些对话和这些小规模测试的结果,我们将更明智地决定是否以及如何大规模部署这项技术。”
漫长的发展之路
语音引擎自2022年开始开发,OpenAI在2023年夏季向全球政策制定者展示了其潜力与风险。目前,几个合作伙伴可访问语音引擎,包括初创公司Livox,旨在帮助残疾人更自然地沟通。然而,Livox首席执行官Carlos Pereira指出,他们无法将语音引擎集成到产品中,因为它需要网络连接,而许多客户缺乏这种条件。“语音的质量和支持不同语言的能力是独特的——特别是对我们的残疾客户,”Pereira通过电子邮件告诉TechCrunch。“这是我见过的最令人印象深刻且易于使用的语音创建工具……我们希望OpenAI尽快开发离线版本。”
Pereira未从OpenAI获悉可能的发布日期或收费计划,目前Livox尚未需要为其使用付费。
在2024年6月的帖子中,OpenAI暗示推迟语音引擎的原因之一是美国选举周期中可能的滥用风险。公司已实施安全措施,包括水印以追踪生成音频的来源。开发者必须获得原始说话者的“明确同意”,并向受众“清楚披露”声音为AI生成。然而,OpenAI尚未详细说明如何大规模执行这些政策,这可能是一个重大挑战。
OpenAI还暗示正在构建“语音认证体验”以验证说话者,并设立“禁止名单”以防止创建类似知名人物的声音。这些是雄心勃勃的项目,任何失误都可能进一步损害OpenAI在安全举措方面的声誉。
有效的过滤和身份验证对于负责任发布语音克隆技术变得至关重要。AI语音克隆是2024年第三快增长的诈骗,导致欺诈和绕过银行安全检查,而隐私和版权法律难以跟上步伐。恶意行为者使用语音克隆创建名人及政客的深伪内容,这些内容在社交媒体上迅速传播。
OpenAI可能下周发布语音引擎,也可能永远不会发布。公司提到考虑保持服务的小规模。但有一点是肯定的:无论是为了形象、安全还是两者兼顾,语音引擎的有限预览已成为OpenAI历史上最长的之一。
相关文章
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心
据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
软银以6.76亿美元收购夏普工厂用于日本AI数据中心
软银正推进其在日本建立主要AI中心的计划,采取独立及与OpenAI等合作的方式。这家科技巨头周五确认,将投资6.76亿美元收购原夏普LCD面板工厂,将其改造成AI数据中心。软银与夏普的交易包括大阪堺工厂的土地和建筑,收购价为1000亿日元(6.76亿美元)。此次收购对软银至关重要,因为数据中心是生成式AI革命的关键,需要大量容量来训练模型并支持持续服务。当被问及该工厂是否支持OpenAI模型在日本
Adobe和Figma整合OpenAI的先进图像生成模型
OpenAI在ChatGPT中增强的图像生成功能引发了用户激增,这得益于其生成吉卜力工作室风格视觉效果和独特设计的能力,现已扩展到其他平台。该公司在一篇博客文章中宣布,驱动此功能的“原生多模态模型”将通过其API作为“gpt-image-1”提供,主要公司已开始采用。“该模型的灵活性使其能够生成多样化风格的图像,遵循自定义指南,利用广泛的世界知识,并准确渲染文本——为各行业开辟了广泛的实际应用,”
评论 (11)
0/200
FredLewis
2025-08-02 23:07:14
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
0
SamuelRoberts
2025-04-23 09:46:04
Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.
0
WillMitchell
2025-04-22 14:48:14
Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.
0
JamesWilliams
2025-04-22 10:55:40
A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.
0
OpenAI的语音引擎:期待已久的发布?
去年三月底,OpenAI推出了其AI服务“语音引擎”的“小规模预览”,承诺仅用15秒语音即可克隆一个人的声音。一年后,该工具仍处于预览模式,没有明确的全面发布计划,甚至不确定是否会正式推出。
广泛推出语音引擎的犹豫可能源于对滥用的担忧,或试图规避监管审查。OpenAI过去因优先考虑炫目产品而忽视安全,以及急于在竞争对手之前上市而受到批评。
一位OpenAI发言人告诉TechCrunch,公司仍在与一小群“可信合作伙伴”测试语音引擎。“我们正在学习合作伙伴如何使用该技术,以提升模型的实用性和安全性,”发言人解释说。“看到它的应用范围,从语音治疗、语言学习到客户支持、视频游戏角色和AI头像,都令人兴奋。”
语音引擎:迄今的历程
语音引擎为OpenAI的文本转语音API和ChatGPT的语音模式提供支持,生成的声音极其自然,高度模仿原始说话者。它将文本转换为语音,仅受某些内容指南的限制。然而,从一开始,推出就受到延迟和发布日期变更的困扰。
在2024年6月的博客文章中,OpenAI详细介绍了语音引擎模型如何预测给定文本的说话者可能发出的声音,考虑不同声音、口音和说话风格。这使模型不仅能从文本生成语音,还能生成反映不同说话者朗读文本的“口述话语”。
最初,语音引擎(当时称为自定义语音)计划于2024年3月7日加入OpenAI的API,根据TechCrunch看到的博客草稿。计划最初向最多100名“可信开发者”提供访问权限,优先考虑开发具有社会效益或展示创新和负责任技术使用的应用。OpenAI已为该服务注册商标,并为“标准”声音设定每百万字符15美元的定价,为“高清质量”声音设定每百万字符30美元。
但在最后时刻,公告被推迟。几周后,OpenAI公布了语音引擎,但没有提供注册选项,仅限2023年底以来合作的小部分开发者访问。
“我们希望就负责任部署合成语音展开对话,探讨社会如何适应这些新能力,”OpenAI在2024年3月底的公告博客中表示。“基于这些对话和这些小规模测试的结果,我们将更明智地决定是否以及如何大规模部署这项技术。”
漫长的发展之路
语音引擎自2022年开始开发,OpenAI在2023年夏季向全球政策制定者展示了其潜力与风险。目前,几个合作伙伴可访问语音引擎,包括初创公司Livox,旨在帮助残疾人更自然地沟通。然而,Livox首席执行官Carlos Pereira指出,他们无法将语音引擎集成到产品中,因为它需要网络连接,而许多客户缺乏这种条件。“语音的质量和支持不同语言的能力是独特的——特别是对我们的残疾客户,”Pereira通过电子邮件告诉TechCrunch。“这是我见过的最令人印象深刻且易于使用的语音创建工具……我们希望OpenAI尽快开发离线版本。”
Pereira未从OpenAI获悉可能的发布日期或收费计划,目前Livox尚未需要为其使用付费。
在2024年6月的帖子中,OpenAI暗示推迟语音引擎的原因之一是美国选举周期中可能的滥用风险。公司已实施安全措施,包括水印以追踪生成音频的来源。开发者必须获得原始说话者的“明确同意”,并向受众“清楚披露”声音为AI生成。然而,OpenAI尚未详细说明如何大规模执行这些政策,这可能是一个重大挑战。
OpenAI还暗示正在构建“语音认证体验”以验证说话者,并设立“禁止名单”以防止创建类似知名人物的声音。这些是雄心勃勃的项目,任何失误都可能进一步损害OpenAI在安全举措方面的声誉。
有效的过滤和身份验证对于负责任发布语音克隆技术变得至关重要。AI语音克隆是2024年第三快增长的诈骗,导致欺诈和绕过银行安全检查,而隐私和版权法律难以跟上步伐。恶意行为者使用语音克隆创建名人及政客的深伪内容,这些内容在社交媒体上迅速传播。
OpenAI可能下周发布语音引擎,也可能永远不会发布。公司提到考虑保持服务的小规模。但有一点是肯定的:无论是为了形象、安全还是两者兼顾,语音引擎的有限预览已成为OpenAI历史上最长的之一。


Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬




Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.




Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.




A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.












