一年后，Openai尚未发布语音克隆工具

首页

新闻

2025-04-21

AnthonyHernández

# openai

OpenAI的语音引擎：期待已久的发布？

去年三月底，OpenAI推出了其AI服务“语音引擎”的“小规模预览”，承诺仅用15秒语音即可克隆一个人的声音。一年后，该工具仍处于预览模式，没有明确的全面发布计划，甚至不确定是否会正式推出。

广泛推出语音引擎的犹豫可能源于对滥用的担忧，或试图规避监管审查。OpenAI过去因优先考虑炫目产品而忽视安全，以及急于在竞争对手之前上市而受到批评。

一位OpenAI发言人告诉TechCrunch，公司仍在与一小群“可信合作伙伴”测试语音引擎。“我们正在学习合作伙伴如何使用该技术，以提升模型的实用性和安全性，”发言人解释说。“看到它的应用范围，从语音治疗、语言学习到客户支持、视频游戏角色和AI头像，都令人兴奋。”

语音引擎：迄今的历程

语音引擎为OpenAI的文本转语音API和ChatGPT的语音模式提供支持，生成的声音极其自然，高度模仿原始说话者。它将文本转换为语音，仅受某些内容指南的限制。然而，从一开始，推出就受到延迟和发布日期变更的困扰。

在2024年6月的博客文章中，OpenAI详细介绍了语音引擎模型如何预测给定文本的说话者可能发出的声音，考虑不同声音、口音和说话风格。这使模型不仅能从文本生成语音，还能生成反映不同说话者朗读文本的“口述话语”。

最初，语音引擎（当时称为自定义语音）计划于2024年3月7日加入OpenAI的API，根据TechCrunch看到的博客草稿。计划最初向最多100名“可信开发者”提供访问权限，优先考虑开发具有社会效益或展示创新和负责任技术使用的应用。OpenAI已为该服务注册商标，并为“标准”声音设定每百万字符15美元的定价，为“高清质量”声音设定每百万字符30美元。

但在最后时刻，公告被推迟。几周后，OpenAI公布了语音引擎，但没有提供注册选项，仅限2023年底以来合作的小部分开发者访问。

“我们希望就负责任部署合成语音展开对话，探讨社会如何适应这些新能力，”OpenAI在2024年3月底的公告博客中表示。“基于这些对话和这些小规模测试的结果，我们将更明智地决定是否以及如何大规模部署这项技术。”

漫长的发展之路

语音引擎自2022年开始开发，OpenAI在2023年夏季向全球政策制定者展示了其潜力与风险。目前，几个合作伙伴可访问语音引擎，包括初创公司Livox，旨在帮助残疾人更自然地沟通。然而，Livox首席执行官Carlos Pereira指出，他们无法将语音引擎集成到产品中，因为它需要网络连接，而许多客户缺乏这种条件。“语音的质量和支持不同语言的能力是独特的——特别是对我们的残疾客户，”Pereira通过电子邮件告诉TechCrunch。“这是我见过的最令人印象深刻且易于使用的语音创建工具……我们希望OpenAI尽快开发离线版本。”

Pereira未从OpenAI获悉可能的发布日期或收费计划，目前Livox尚未需要为其使用付费。

在2024年6月的帖子中，OpenAI暗示推迟语音引擎的原因之一是美国选举周期中可能的滥用风险。公司已实施安全措施，包括水印以追踪生成音频的来源。开发者必须获得原始说话者的“明确同意”，并向受众“清楚披露”声音为AI生成。然而，OpenAI尚未详细说明如何大规模执行这些政策，这可能是一个重大挑战。

OpenAI还暗示正在构建“语音认证体验”以验证说话者，并设立“禁止名单”以防止创建类似知名人物的声音。这些是雄心勃勃的项目，任何失误都可能进一步损害OpenAI在安全举措方面的声誉。

有效的过滤和身份验证对于负责任发布语音克隆技术变得至关重要。AI语音克隆是2024年第三快增长的诈骗，导致欺诈和绕过银行安全检查，而隐私和版权法律难以跟上步伐。恶意行为者使用语音克隆创建名人及政客的深伪内容，这些内容在社交媒体上迅速传播。

OpenAI可能下周发布语音引擎，也可能永远不会发布。公司提到考虑保持服务的小规模。但有一点是肯定的：无论是为了形象、安全还是两者兼顾，语音引擎的有限预览已成为OpenAI历史上最长的之一。

英伟达的人工智能炒作遭遇现实，70%的利润率在推理大战中备受质疑人工智能芯片大战在 VB Transform 2025 上爆发在 VB Transform 2025 的一场激烈的小组讨论中，战线已经拉开，崛起的挑战者直接瞄准了 Nvidia 的市场主导地位。核心问题暴露了一个明显的矛盾：人工智能推理如何既能被称为商品化的 "工厂"，又能带来 70% 的巨大毛利率？挑战者大声疾呼Groq 首席执行官乔纳森-罗斯（Jonathan Ross）一针见血地指出

OpenAI 将 ChatGPT Pro 升级到 o3，提升 200 美元月费的价值本周，微软（Microsoft）、谷歌（Google）和人类学（Anthropic）等科技巨头都发布了重要的人工智能发展成果。OpenAI 以自己的突破性更新结束了这一轮的公告发布--除了高调斥资 65 亿美元收购 Jony Ive 的设计公司，还推出了代号为 "io "的雄心勃勃的硬件计划。公司大幅增强了 ChatGPT 中的 Operator 自主网络导航系统，从以前的 GPT-4o 框架过渡

非营利组织利用人工智能代理促进慈善筹款工作当大型科技公司将人工智能 "代理 "作为企业生产力的助推器进行推广时，一家非营利组织正在展示它们在社会公益方面的潜力。由开放慈善组织（Open Philanthropy）支持的慈善研究机构赛智未来（Sage Future）最近进行了一项创新实验，展示了人工智能模型如何在慈善筹款方面进行合作。该非营利组织在一个模拟数字环境中设置了四个先进的人工智能模型--OpenAI 的 GPT-4o 和 o1

0/200

提交

FredLewis

2025-08-02 23:07:14

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬