選項
首頁
新聞
一年後,Openai尚未發布語音克隆工具

一年後,Openai尚未發布語音克隆工具

2025-04-21
93

OpenAI的語音引擎:期待已久的發布?

去年三月底,OpenAI推出其AI服務語音引擎的「小規模預覽」,該服務承諾僅需15秒的語音即可複製一個人的聲音。一年後,該工具仍處於預覽模式,沒有明確的全面推出時間表,甚至無法確認它是否會正式問世。

對語音引擎廣泛推出的猶豫可能源於對濫用的擔憂,或是試圖規避監管審查。OpenAI過去曾因優先推出炫目產品而非安全,以及急於搶在競爭對手之前進入市場而受到批評。

一位OpenAI發言人向TechCrunch表示,該公司仍在與一小群「可信夥伴」測試語音引擎。「我們正在從我們的夥伴如何使用這項技術中學習,以提升模型的實用性和安全性,」該發言人解釋道。「看到它的應用範圍從言語治療、語言學習到客戶支援、電玩角色和AI化身,真是令人興奮。」

語音引擎:迄今的旅程

語音引擎為OpenAI的文字轉語音API和ChatGPT的語音模式提供聲音,能生成極為自然、與原講者高度相似的語音。它將文字轉為語音,僅受某些內容指引的限制。然而,從一開始,推出過程就受到延遲和不斷變化的發布日期的困擾。

在2024年6月的部落格文章中,OpenAI詳細說明了語音引擎模型如何學習預測講者在給定文字下可能發出的聲音,考慮到不同的聲音、口音和說話風格。這使模型不僅能從文字生成語音,還能產生反映不同講者如何朗讀文字的「口語表達」。

根據TechCrunch看到的草稿部落格文章,語音引擎(當時稱為自訂聲音)原定於2024年3月7日加入OpenAI的API。計劃是最初向多達100位「可信開發者」提供存取權,優先考慮那些開發具有社會效益或展示創新且負責任使用技術的應用程式。OpenAI已為該服務註冊商標,並為「標準」聲音設定每百萬字元15美元的價格,為「高畫質」聲音設定每百萬字元30美元的價格。

但在最後一刻,公告被推遲。幾週後,OpenAI推出了語音引擎,但未提供註冊選項,僅限於自2023年底以來合作的一小群開發者使用。

「我們希望啟動關於負責任部署合成聲音的對話,以及社會如何適應這些新能力,」OpenAI在2024年3月底的公告部落格文章中表示。「根據這些對話和這些小規模測試的結果,我們將做出更明智的決定,關於是否以及如何大規模部署這項技術。」

漫長的開發之路

語音引擎自2022年開始開發,OpenAI在2023年夏季向全球政策制定者展示了其潛力與風險。目前,幾個夥伴已可使用語音引擎,包括新創公司Livox,該公司旨在幫助殘疾人士更自然地溝通。然而,Livox執行長Carlos Pereira指出,他們無法將語音引擎整合到產品中,因為它需要網路連線,而許多客戶缺乏這種條件。「聲音的品質以及聲音能以不同語言說話的能力是獨特的——特別是對我們的殘疾客戶來說,」Pereira透過電子郵件向TechCrunch表示。「這是我見過最令人印象深刻且易於使用的創建聲音工具……我們希望OpenAI盡快開發離線版本。」

Pereira尚未從OpenAI收到關於潛在發布日期或服務收費計劃的任何指示,目前Livox尚未為其使用付費。

在2024年6月的文章中,OpenAI表示推遲語音引擎的原因之一是美國選舉週期中可能的濫用風險。該公司已實施安全措施,包括為生成的音訊添加水印以追蹤來源。開發者必須獲得原講者的「明確同意」,並向其受眾「清楚披露」聲音是由AI生成的。然而,OpenAI尚未詳細說明如何在大規模執行這些政策,這可能是一個重大挑戰。

OpenAI還暗示正在打造「語音驗證體驗」以驗證講者身份,並建立「禁止名單」以防止創建與知名人物相似的聲音。這些都是雄心勃勃的項目,任何失誤都可能進一步損害OpenAI在安全措施方面的聲譽。

有效的過濾和身份驗證正成為負責任發布語音複製技術的關鍵。AI語音複製是2024年第三快速增長的詐騙形式,導致詐騙和繞過銀行安全檢查,因為隱私和版權法難以跟上步伐。惡意行為者已使用語音複製創建名人與政治人物的深度偽造,這些偽造內容在社群媒體上迅速傳播。

OpenAI可能下週發布語音引擎,也可能永遠不會發生。該公司提到考慮保持該服務的小規模範圍。但有一件事是肯定的:無論是為了形象、安全還是兩者兼具,語音引擎的有限預覽已成為OpenAI史上最長的預覽之一。

相關文章
甲骨文40億美元Nvidia晶片投資推動德州AI數據中心 甲骨文40億美元Nvidia晶片投資推動德州AI數據中心 據《金融時報》報導,甲骨文計劃投資約40億美元於Nvidia晶片,為OpenAI在德州開發的大型新數據中心提供動力。這筆交易是迄今為止最大的晶片收購之一,凸顯了對AI運算資源的激增需求。該設施位於德州阿比林,是美國首個「星門」數據中心。由OpenAI和軟銀支持,屬於建設大規模AI基礎設施的更廣泛計劃的一部分。該德州中心預計明年完工,將提供1.2吉瓦的運算能力,位列全球最大之列。甲骨文計劃採購約40
軟銀以6.76億美元收購夏普工廠用於日本AI數據中心 軟銀以6.76億美元收購夏普工廠用於日本AI數據中心 軟銀正推進其在日本建立主要AI中心的目標,獨立進行並透過與OpenAI等合作。該科技巨頭於週五確認,將投資6.76億美元收購一座前夏普LCD面板工廠,將其轉型為AI數據中心。軟銀與夏普的交易包括位於大阪的堺工廠的土地和建築物,購買價格為1000億日元(6.76億美元)。此次收購對軟銀來說是關鍵一步,因為數據中心對於生成式AI革命至關重要,需要大量容量來訓練模型並支持持續服務。當被問及該地點是否將支
Adobe與Figma整合OpenAI的先進圖像生成模型 Adobe與Figma整合OpenAI的先進圖像生成模型 OpenAI在ChatGPT中增強的圖像生成功能帶動了用戶激增,這得益於其生成吉卜力工作室風格視覺效果和獨特設計的能力,現正擴展至其他平台。該公司在一篇博客文章中宣佈,驅動此功能的“原生多模態模型”將通過其API以“gpt-image-1”的形式提供,主要公司已開始採用。“該模型的靈活性使其能夠生成多樣化風格的圖像,遵循自定義指南,利用廣泛的世界知識,並精確渲染文字——為各行各業開啟了廣泛的實際應
評論 (11)
0/200
FredLewis
FredLewis 2025-08-02 23:07:14

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬

PaulBrown
PaulBrown 2025-04-23 17:20:58

1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。

TimothyMiller
TimothyMiller 2025-04-23 14:50:47

等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。

SamuelRoberts
SamuelRoberts 2025-04-23 09:46:04

Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.

WillMitchell
WillMitchell 2025-04-22 14:48:14

Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.

JamesWilliams
JamesWilliams 2025-04-22 10:55:40

A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.

回到頂部
OR