选项
首页 新闻 一年后,Openai尚未发布语音克隆工具

一年后,Openai尚未发布语音克隆工具

发布日期 发布日期 2025年04月21日
作者 作者 AnthonyHernández
浏览量 浏览量 25

Openai的语音引擎:期待已久的发行版?

去年3月下旬,Openai推出了其AI服务“语音引擎”的“小规模预览”,该语音发动机承诺仅使用15秒的演讲来克隆一个人的声音。快进一年,该工具仍处于预览模式,没有明确的时间表进行完整的发布,甚至确认它将看到一天的光芒。

犹豫不决地推出语音引擎可能会引起人们对滥用的担忧,或者可能是试图避开调节性审查的企图。 Openai过去曾面临批评,因为将浮华的产品优先于安全性,并急于领先于竞争对手。

一位OpenAI发言人告诉TechCrunch,该公司仍在与一组“受信任的合作伙伴”组合测试语音引擎。发言人解释说:“我们正在从合作伙伴使用该技术来增强模型的实用性和安全性的方式中学习。” “看到其应用程序,从语音疗法和语言学习到客户支持,视频游戏角色和AI化身,真是令人兴奋。”

语音引擎:到目前为止的旅程

语音引擎在Openai的文本到语音API和Chatgpt的语音模式中驱动声音,创造了非常自然的演讲,可以密切模仿原始扬声器。它将文本转换为语音,仅受某些内容准则的约束。但是,从一开始,延迟和变化的释放日期困扰着推出。

在2024年6月的博客文章中,Openai详细介绍了语音引擎模型如何学会预测说话者可能会为给定文本发出的声音,并考虑到各种声音,口音和说话风格。这不仅允许模型从文本中产生语音,还可以产生“口语话语”,以反映不同的说话者如何大声发出文字。

根据TechCrunch的一篇博客帖子草案,最初,当时称为Custom Voices的语音引擎将于2024年3月7日加入OpenAI的API。该计划是最初提供最多100个“受信任开发人员”的访问权限,优先考虑那些具有社会福利的应用程序或表现出对技术的创新和负责任的使用。 Openai已经为该服务提供了商标,并将“标准”声音的价格定为每百万美元的15美元,每百万美元的“高清质量”声音。

但是在最后一刻,宣布被推迟了。几周后,Openai宣布了没有注册选项的语音引擎,限制了自2023年底以来与他们合作的一小部分开发人员的访问。

Openai在2024年3月下旬的公告博客文章中说:“我们希望开始就合成声音负责部署以及社会如何适应这些新功能的对话。” “基于这些对话和这些小规模测试的结果,我们将对是否以及如何大规模部署这项技术做出更明智的决定。”

一条漫长的开发道路

自2022年以来,语音引擎一直在开发,Openai在2023年夏天向全球决策者展示了其潜力和风险。如今,一些合作伙伴可以使用语音引擎,包括初创公司Livox,旨在帮助残疾人更自然地交流。但是,利沃克斯首席执行官卡洛斯·佩雷拉(Carlos Pereira)指出,他们无法将语音引擎集成到他们的产品中,因为它需要许多客户所缺乏的互联网连接。 Pereira通过电子邮件告诉TechCrunch:“语音质量和用不同语言说话的能力是独一无二的,尤其是对于我们的残疾客户而言。” “这确实是创建我看到的声音的最令人印象深刻,最易于使用的工具……我们希望Openai很快就会开发脱机版本。”

佩雷拉(Pereira)尚未收到Openai的任何迹象,即潜在的发布日期或计划为该服务收费的计划,到目前为止,Livox不必为其使用付费。

在2024年6月的一篇文章中,Openai建议延迟语音引擎的原因是在美国选举周期期间遭受虐待的可能性。该公司已经采取了安全措施,包括水印以追踪生成的音频的起源。开发人员必须从原始演讲者那里获得“明确的同意”,并向听众提供“清晰的披露”,即声音是AI生成的。但是,Openai尚未详细说明如何大规模执行这些政策,这可能是一个重大挑战。

Openai还暗示建立“语音身份验证体验”,以验证扬声器和“无行为”列表,以防止创建类似杰出人物的声音。这些都是雄心勃勃的项目,任何失误都可能进一步损害OpenAI在安全计划上的声誉。

有效的过滤和ID验证对于负责任地释放语音克隆技术至关重要。 AI语音克隆是2024年增长最快的第三个增长骗局,导致欺诈并绕过银行安全检查,因为隐私和版权法律努力保持步伐。恶意演员使用语音克隆来创造名人和政客的深层攻击,这些名人和政客在社交媒体上迅速传播。

Openai可能下周发布语音引擎,或者可能永远不会发生。该公司已经提到考虑将服务保持在范围中。但是有一件事是可以肯定的:无论是光学,安全还是两者兼而有之,语音引擎的有限预览已成为Openai历史上最长的预览之一。

相关文章
Google搜索引入了複雜的多部分查詢的“ AI模式” Google搜索引入了複雜的多部分查詢的“ AI模式” Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話 Openai增強了Chatgpt,以回憶以前的對話 Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
评论 (5)
0/200
StephenScott
StephenScott 2025年04月21日 23:54:47

It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞

WillieHernández
WillieHernández 2025年04月21日 23:54:47

オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞

BillyWilson
BillyWilson 2025年04月21日 23:54:47

오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞

KennethKing
KennethKing 2025年04月21日 23:54:47

Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞

JeffreyThomas
JeffreyThomas 2025年04月21日 23:54:47

¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞

返回顶部
OR