一年後,Openai尚未發布語音克隆工具
2025年04月21日
AnthonyHernández
25
Openai的語音引擎:期待已久的發行版?
去年3月下旬,Openai推出了其AI服務“語音引擎”的“小規模預覽”,該語音發動機承諾僅使用15秒的演講來克隆一個人的聲音。快進一年,該工具仍處於預覽模式,沒有明確的時間表進行完整的發布,甚至確認它將看到一天的光芒。
猶豫不決地推出語音引擎可能會引起人們對濫用的擔憂,或者可能是試圖避開調節性審查的企圖。 Openai過去曾面臨批評,因為將浮華的產品優先於安全性,並急於領先於競爭對手。
一位OpenAI發言人告訴TechCrunch,該公司仍在與一組“受信任的合作夥伴”組合測試語音引擎。發言人解釋說:“我們正在從合作夥伴使用該技術來增強模型的實用性和安全性的方式中學習。” “看到其應用程序,從語音療法和語言學習到客戶支持,視頻遊戲角色和AI化身,真是令人興奮。”
語音引擎:到目前為止的旅程
語音引擎在Openai的文本到語音API和Chatgpt的語音模式中驅動聲音,創造了非常自然的演講,可以密切模仿原始揚聲器。它將文本轉換為語音,僅受某些內容準則的約束。但是,從一開始,延遲和變化的釋放日期困擾著推出。
在2024年6月的博客文章中,Openai詳細介紹了語音引擎模型如何學會預測說話者可能會為給定文本發出的聲音,並考慮到各種聲音,口音和說話風格。這不僅允許模型從文本中產生語音,還可以產生“口語話語”,以反映不同的說話者如何大聲發出文字。
根據TechCrunch的一篇博客帖子草案,最初,當時稱為Custom Voices的語音引擎將於2024年3月7日加入OpenAI的API。該計劃是最初提供最多100個“受信任開發人員”的訪問權限,優先考慮那些具有社會福利的應用程序或表現出對技術的創新和負責任的使用。 Openai已經為該服務提供了商標,並將“標準”聲音的價格定為每百萬美元的15美元,每百萬美元的“高清質量”聲音。
但是在最後一刻,宣布被推遲了。幾週後,Openai宣布了沒有註冊選項的語音引擎,限制了自2023年底以來與他們合作的一小部分開發人員的訪問。
Openai在2024年3月下旬的公告博客文章中說:“我們希望開始就合成聲音負責部署以及社會如何適應這些新功能的對話。” “基於這些對話和這些小規模測試的結果,我們將對是否以及如何大規模部署這項技術做出更明智的決定。”
一條漫長的開發道路
自2022年以來,語音引擎一直在開發,Openai在2023年夏天向全球決策者展示了其潛力和風險。如今,一些合作夥伴可以使用語音引擎,包括初創公司Livox,旨在幫助殘疾人更自然地交流。但是,利沃克斯首席執行官卡洛斯·佩雷拉(Carlos Pereira)指出,他們無法將語音引擎集成到他們的產品中,因為它需要許多客戶所缺乏的互聯網連接。 Pereira通過電子郵件告訴TechCrunch:“語音質量和用不同語言說話的能力是獨一無二的,尤其是對於我們的殘疾客戶而言。” “這確實是創建我看到的聲音的最令人印象深刻,最易於使用的工具……我們希望Openai很快就會開發脫機版本。”
佩雷拉(Pereira)尚未收到Openai的任何跡象,即潛在的發布日期或計劃為該服務收費的計劃,到目前為止,Livox不必為其使用付費。
在2024年6月的一篇文章中,Openai建議延遲語音引擎的原因是在美國選舉週期期間遭受虐待的可能性。該公司已經採取了安全措施,包括水印以追踪生成的音頻的起源。開發人員必須從原始演講者那裡獲得“明確的同意”,並向聽眾提供“清晰的披露”,即聲音是AI生成的。但是,Openai尚未詳細說明如何大規模執行這些政策,這可能是一個重大挑戰。
Openai還暗示建立“語音身份驗證體驗”,以驗證揚聲器和“無行為”列表,以防止創建類似傑出人物的聲音。這些都是雄心勃勃的項目,任何失誤都可能進一步損害OpenAI在安全計劃上的聲譽。
有效的過濾和ID驗證對於負責任地釋放語音克隆技術至關重要。 AI語音克隆是2024年增長最快的第三個增長騙局,導致欺詐並繞過銀行安全檢查,因為隱私和版權法律努力保持步伐。惡意演員使用語音克隆來創造名人和政客的深層攻擊,這些名人和政客在社交媒體上迅速傳播。
Openai可能下週發布語音引擎,或者可能永遠不會發生。該公司已經提到考慮將服務保持在範圍中。但是有一件事是可以肯定的:無論是光學,安全還是兩者兼而有之,語音引擎的有限預覽已成為Openai歷史上最長的預覽之一。
相關文章
Google搜索引入了複雜的多部分查詢的“ AI模式”
Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題
Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話
Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
評論 (5)
0/200
StephenScott
2025年04月21日 23:54:47
It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞
0
WillieHernández
2025年04月21日 23:54:47
オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞
0
BillyWilson
2025年04月21日 23:54:47
오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞
0
KennethKing
2025年04月21日 23:54:47
Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞
0
JeffreyThomas
2025年04月21日 23:54:47
¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞
0






Openai的語音引擎:期待已久的發行版?
去年3月下旬,Openai推出了其AI服務“語音引擎”的“小規模預覽”,該語音發動機承諾僅使用15秒的演講來克隆一個人的聲音。快進一年,該工具仍處於預覽模式,沒有明確的時間表進行完整的發布,甚至確認它將看到一天的光芒。
猶豫不決地推出語音引擎可能會引起人們對濫用的擔憂,或者可能是試圖避開調節性審查的企圖。 Openai過去曾面臨批評,因為將浮華的產品優先於安全性,並急於領先於競爭對手。
一位OpenAI發言人告訴TechCrunch,該公司仍在與一組“受信任的合作夥伴”組合測試語音引擎。發言人解釋說:“我們正在從合作夥伴使用該技術來增強模型的實用性和安全性的方式中學習。” “看到其應用程序,從語音療法和語言學習到客戶支持,視頻遊戲角色和AI化身,真是令人興奮。”
語音引擎:到目前為止的旅程
語音引擎在Openai的文本到語音API和Chatgpt的語音模式中驅動聲音,創造了非常自然的演講,可以密切模仿原始揚聲器。它將文本轉換為語音,僅受某些內容準則的約束。但是,從一開始,延遲和變化的釋放日期困擾著推出。
在2024年6月的博客文章中,Openai詳細介紹了語音引擎模型如何學會預測說話者可能會為給定文本發出的聲音,並考慮到各種聲音,口音和說話風格。這不僅允許模型從文本中產生語音,還可以產生“口語話語”,以反映不同的說話者如何大聲發出文字。
根據TechCrunch的一篇博客帖子草案,最初,當時稱為Custom Voices的語音引擎將於2024年3月7日加入OpenAI的API。該計劃是最初提供最多100個“受信任開發人員”的訪問權限,優先考慮那些具有社會福利的應用程序或表現出對技術的創新和負責任的使用。 Openai已經為該服務提供了商標,並將“標準”聲音的價格定為每百萬美元的15美元,每百萬美元的“高清質量”聲音。
但是在最後一刻,宣布被推遲了。幾週後,Openai宣布了沒有註冊選項的語音引擎,限制了自2023年底以來與他們合作的一小部分開發人員的訪問。
Openai在2024年3月下旬的公告博客文章中說:“我們希望開始就合成聲音負責部署以及社會如何適應這些新功能的對話。” “基於這些對話和這些小規模測試的結果,我們將對是否以及如何大規模部署這項技術做出更明智的決定。”
一條漫長的開發道路
自2022年以來,語音引擎一直在開發,Openai在2023年夏天向全球決策者展示了其潛力和風險。如今,一些合作夥伴可以使用語音引擎,包括初創公司Livox,旨在幫助殘疾人更自然地交流。但是,利沃克斯首席執行官卡洛斯·佩雷拉(Carlos Pereira)指出,他們無法將語音引擎集成到他們的產品中,因為它需要許多客戶所缺乏的互聯網連接。 Pereira通過電子郵件告訴TechCrunch:“語音質量和用不同語言說話的能力是獨一無二的,尤其是對於我們的殘疾客戶而言。” “這確實是創建我看到的聲音的最令人印象深刻,最易於使用的工具……我們希望Openai很快就會開發脫機版本。”
佩雷拉(Pereira)尚未收到Openai的任何跡象,即潛在的發布日期或計劃為該服務收費的計劃,到目前為止,Livox不必為其使用付費。
在2024年6月的一篇文章中,Openai建議延遲語音引擎的原因是在美國選舉週期期間遭受虐待的可能性。該公司已經採取了安全措施,包括水印以追踪生成的音頻的起源。開發人員必須從原始演講者那裡獲得“明確的同意”,並向聽眾提供“清晰的披露”,即聲音是AI生成的。但是,Openai尚未詳細說明如何大規模執行這些政策,這可能是一個重大挑戰。
Openai還暗示建立“語音身份驗證體驗”,以驗證揚聲器和“無行為”列表,以防止創建類似傑出人物的聲音。這些都是雄心勃勃的項目,任何失誤都可能進一步損害OpenAI在安全計劃上的聲譽。
有效的過濾和ID驗證對於負責任地釋放語音克隆技術至關重要。 AI語音克隆是2024年增長最快的第三個增長騙局,導致欺詐並繞過銀行安全檢查,因為隱私和版權法律努力保持步伐。惡意演員使用語音克隆來創造名人和政客的深層攻擊,這些名人和政客在社交媒體上迅速傳播。
Openai可能下週發布語音引擎,或者可能永遠不會發生。該公司已經提到考慮將服務保持在範圍中。但是有一件事是可以肯定的:無論是光學,安全還是兩者兼而有之,語音引擎的有限預覽已成為Openai歷史上最長的預覽之一。




It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞




オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞




오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞




Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞




¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞












