一年後，Openai尚未發布語音克隆工具

首頁

新聞

2025-04-21

AnthonyHernández

# openai

OpenAI的語音引擎：期待已久的發布？

去年三月底，OpenAI推出其AI服務語音引擎的「小規模預覽」，該服務承諾僅需15秒的語音即可複製一個人的聲音。一年後，該工具仍處於預覽模式，沒有明確的全面推出時間表，甚至無法確認它是否會正式問世。

對語音引擎廣泛推出的猶豫可能源於對濫用的擔憂，或是試圖規避監管審查。OpenAI過去曾因優先推出炫目產品而非安全，以及急於搶在競爭對手之前進入市場而受到批評。

一位OpenAI發言人向TechCrunch表示，該公司仍在與一小群「可信夥伴」測試語音引擎。「我們正在從我們的夥伴如何使用這項技術中學習，以提升模型的實用性和安全性，」該發言人解釋道。「看到它的應用範圍從言語治療、語言學習到客戶支援、電玩角色和AI化身，真是令人興奮。」

語音引擎：迄今的旅程

語音引擎為OpenAI的文字轉語音API和ChatGPT的語音模式提供聲音，能生成極為自然、與原講者高度相似的語音。它將文字轉為語音，僅受某些內容指引的限制。然而，從一開始，推出過程就受到延遲和不斷變化的發布日期的困擾。

在2024年6月的部落格文章中，OpenAI詳細說明了語音引擎模型如何學習預測講者在給定文字下可能發出的聲音，考慮到不同的聲音、口音和說話風格。這使模型不僅能從文字生成語音，還能產生反映不同講者如何朗讀文字的「口語表達」。

根據TechCrunch看到的草稿部落格文章，語音引擎（當時稱為自訂聲音）原定於2024年3月7日加入OpenAI的API。計劃是最初向多達100位「可信開發者」提供存取權，優先考慮那些開發具有社會效益或展示創新且負責任使用技術的應用程式。OpenAI已為該服務註冊商標，並為「標準」聲音設定每百萬字元15美元的價格，為「高畫質」聲音設定每百萬字元30美元的價格。

但在最後一刻，公告被推遲。幾週後，OpenAI推出了語音引擎，但未提供註冊選項，僅限於自2023年底以來合作的一小群開發者使用。

「我們希望啟動關於負責任部署合成聲音的對話，以及社會如何適應這些新能力，」OpenAI在2024年3月底的公告部落格文章中表示。「根據這些對話和這些小規模測試的結果，我們將做出更明智的決定，關於是否以及如何大規模部署這項技術。」

漫長的開發之路

語音引擎自2022年開始開發，OpenAI在2023年夏季向全球政策制定者展示了其潛力與風險。目前，幾個夥伴已可使用語音引擎，包括新創公司Livox，該公司旨在幫助殘疾人士更自然地溝通。然而，Livox執行長Carlos Pereira指出，他們無法將語音引擎整合到產品中，因為它需要網路連線，而許多客戶缺乏這種條件。「聲音的品質以及聲音能以不同語言說話的能力是獨特的——特別是對我們的殘疾客戶來說，」Pereira透過電子郵件向TechCrunch表示。「這是我見過最令人印象深刻且易於使用的創建聲音工具……我們希望OpenAI盡快開發離線版本。」

Pereira尚未從OpenAI收到關於潛在發布日期或服務收費計劃的任何指示，目前Livox尚未為其使用付費。

在2024年6月的文章中，OpenAI表示推遲語音引擎的原因之一是美國選舉週期中可能的濫用風險。該公司已實施安全措施，包括為生成的音訊添加水印以追蹤來源。開發者必須獲得原講者的「明確同意」，並向其受眾「清楚披露」聲音是由AI生成的。然而，OpenAI尚未詳細說明如何在大規模執行這些政策，這可能是一個重大挑戰。

OpenAI還暗示正在打造「語音驗證體驗」以驗證講者身份，並建立「禁止名單」以防止創建與知名人物相似的聲音。這些都是雄心勃勃的項目，任何失誤都可能進一步損害OpenAI在安全措施方面的聲譽。

有效的過濾和身份驗證正成為負責任發布語音複製技術的關鍵。AI語音複製是2024年第三快速增長的詐騙形式，導致詐騙和繞過銀行安全檢查，因為隱私和版權法難以跟上步伐。惡意行為者已使用語音複製創建名人與政治人物的深度偽造，這些偽造內容在社群媒體上迅速傳播。

OpenAI可能下週發布語音引擎，也可能永遠不會發生。該公司提到考慮保持該服務的小規模範圍。但有一件事是肯定的：無論是為了形象、安全還是兩者兼具，語音引擎的有限預覽已成為OpenAI史上最長的預覽之一。

Nvidia 的人工智慧炒作遭遇現實，70% 的邊際利潤在推理戰中備受審查人工智慧晶片大戰在 VB Transform 2025 上爆發在 VB Transform 2025 的一場火熱的專題討論中，戰線已經劃下，崛起的挑戰者直接針對 Nvidia 的市場主導地位。中心問題暴露了一個明顯的矛盾：AI 推理如何能同時被形容為商品化的「工廠」，同時又能提供 70% 的龐大毛利率？挑戰者發聲Groq 執行長 Jonathan Ross 一語道破業界的玄機："「AI工廠

OpenAI 將 ChatGPT Pro 升級至 o3，提升每月 200 美元訂閱的價值本週，包括 Microsoft、Google 和 Anthropic 在內的科技巨擘都發表了重要的 AI 發展。OpenAI 以自己的突破性更新結束了這一連串的公告 - 除了高調地以 65 億美元收購 Jony Ive 的設計公司，推出代號為「io」的雄心勃勃的硬體計畫之外。該公司已大幅強化 ChatGPT 內的 Operator 自主網頁導覽系統，從先前的 GPT-4o 架構過渡到先進的 o3

非營利組織利用 AI 代理提升慈善募款工作當各大科技公司將人工智慧「代理」推廣為企業生產力的助推器時，一家非營利組織正在展示人工智慧在社會公益方面的潛力。由 Open Philanthropy 支持的慈善研究組織 Sage Future 最近進行了一項創新實驗，展示 AI 模型如何協同進行慈善募款。該非營利組織將 OpenAI 的 GPT-4o 與 o1，以及 Anthropic 的 Claude 3.6 與 3.7 Sonnet 等

評論 (11)

0/200

提交

FredLewis

2025-08-02 23:07:14

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬