一年後,Openai尚未發布語音克隆工具
OpenAI的語音引擎:期待已久的發布?
去年三月底,OpenAI推出其AI服務語音引擎的「小規模預覽」,該服務承諾僅需15秒的語音即可複製一個人的聲音。一年後,該工具仍處於預覽模式,沒有明確的全面推出時間表,甚至無法確認它是否會正式問世。
對語音引擎廣泛推出的猶豫可能源於對濫用的擔憂,或是試圖規避監管審查。OpenAI過去曾因優先推出炫目產品而非安全,以及急於搶在競爭對手之前進入市場而受到批評。
一位OpenAI發言人向TechCrunch表示,該公司仍在與一小群「可信夥伴」測試語音引擎。「我們正在從我們的夥伴如何使用這項技術中學習,以提升模型的實用性和安全性,」該發言人解釋道。「看到它的應用範圍從言語治療、語言學習到客戶支援、電玩角色和AI化身,真是令人興奮。」
語音引擎:迄今的旅程
語音引擎為OpenAI的文字轉語音API和ChatGPT的語音模式提供聲音,能生成極為自然、與原講者高度相似的語音。它將文字轉為語音,僅受某些內容指引的限制。然而,從一開始,推出過程就受到延遲和不斷變化的發布日期的困擾。
在2024年6月的部落格文章中,OpenAI詳細說明了語音引擎模型如何學習預測講者在給定文字下可能發出的聲音,考慮到不同的聲音、口音和說話風格。這使模型不僅能從文字生成語音,還能產生反映不同講者如何朗讀文字的「口語表達」。
根據TechCrunch看到的草稿部落格文章,語音引擎(當時稱為自訂聲音)原定於2024年3月7日加入OpenAI的API。計劃是最初向多達100位「可信開發者」提供存取權,優先考慮那些開發具有社會效益或展示創新且負責任使用技術的應用程式。OpenAI已為該服務註冊商標,並為「標準」聲音設定每百萬字元15美元的價格,為「高畫質」聲音設定每百萬字元30美元的價格。
但在最後一刻,公告被推遲。幾週後,OpenAI推出了語音引擎,但未提供註冊選項,僅限於自2023年底以來合作的一小群開發者使用。
「我們希望啟動關於負責任部署合成聲音的對話,以及社會如何適應這些新能力,」OpenAI在2024年3月底的公告部落格文章中表示。「根據這些對話和這些小規模測試的結果,我們將做出更明智的決定,關於是否以及如何大規模部署這項技術。」
漫長的開發之路
語音引擎自2022年開始開發,OpenAI在2023年夏季向全球政策制定者展示了其潛力與風險。目前,幾個夥伴已可使用語音引擎,包括新創公司Livox,該公司旨在幫助殘疾人士更自然地溝通。然而,Livox執行長Carlos Pereira指出,他們無法將語音引擎整合到產品中,因為它需要網路連線,而許多客戶缺乏這種條件。「聲音的品質以及聲音能以不同語言說話的能力是獨特的——特別是對我們的殘疾客戶來說,」Pereira透過電子郵件向TechCrunch表示。「這是我見過最令人印象深刻且易於使用的創建聲音工具……我們希望OpenAI盡快開發離線版本。」
Pereira尚未從OpenAI收到關於潛在發布日期或服務收費計劃的任何指示,目前Livox尚未為其使用付費。
在2024年6月的文章中,OpenAI表示推遲語音引擎的原因之一是美國選舉週期中可能的濫用風險。該公司已實施安全措施,包括為生成的音訊添加水印以追蹤來源。開發者必須獲得原講者的「明確同意」,並向其受眾「清楚披露」聲音是由AI生成的。然而,OpenAI尚未詳細說明如何在大規模執行這些政策,這可能是一個重大挑戰。
OpenAI還暗示正在打造「語音驗證體驗」以驗證講者身份,並建立「禁止名單」以防止創建與知名人物相似的聲音。這些都是雄心勃勃的項目,任何失誤都可能進一步損害OpenAI在安全措施方面的聲譽。
有效的過濾和身份驗證正成為負責任發布語音複製技術的關鍵。AI語音複製是2024年第三快速增長的詐騙形式,導致詐騙和繞過銀行安全檢查,因為隱私和版權法難以跟上步伐。惡意行為者已使用語音複製創建名人與政治人物的深度偽造,這些偽造內容在社群媒體上迅速傳播。
OpenAI可能下週發布語音引擎,也可能永遠不會發生。該公司提到考慮保持該服務的小規模範圍。但有一件事是肯定的:無論是為了形象、安全還是兩者兼具,語音引擎的有限預覽已成為OpenAI史上最長的預覽之一。
相關文章
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
五角大樓與英偉達、微軟和亞馬遜網路服務公司簽訂了協議,以便在機密網路中部署人工智慧技術。
在此前與谷歌、SpaceX和OpenAI達成協議之後,美國國防部於週五宣佈,它現已與Nvidia、微軟、亞馬遜網路服務和Reflection AI簽訂了合同,這些公司將會將其人工智慧技術和模型部署在保密網路上,用於“合法的操作用途”。宣告中還指出:“這些協議加速了將美國軍隊建設成為以人工智慧為核心作戰力量的程序,並將增強我們的戰士在所有戰爭領域保持決策優勢的能力。”這些協議的簽署,正值五角大樓試圖在與Anthropic就使用條款發生爭議後,多元化其人工智慧供應商的選擇。五角大樓希望無限制地使
相關專題推薦
評論 (15)
0/500
これ、もう1年も経つのにまだプレビュー版なんだね。音声クローン技術って倫理的にすごくデリケートな問題だから、慎重に進めるのは理解できるけど、市場の期待はずっと先送りされてる感じ。他のAI企業はどんどん類似機能をリリースしてるのに、OpenAIは何を待ってるんだろう?🤔 もしかしたら、悪用防止の仕組みを完璧にしたいのかな。でも、待たされるユーザーとしては少しイライラするかも…
Ça fait un an qu'ils promettent cette technologie et toujours rien ? 😅 Moi qui voulais créer une voix IA de mon chat, je crois que je vais devoir attendre encore longtemps. C'est bizarre cette absence de calendrier, peut-être qu'ils ont des problèmes éthiques à régler ?
これ、去年発表されたまま音沙汰ないんですね🤔 声の合成技術は確かにすごいけど、どんな懸念があって公開をためらっているのか気になります。もしかして悪用されそうで怖いからかな?早く使ってみたいけど、慎重になる気持ちもわかる…
¿Un año y todavía no han soltado esa herramienta de clonación de voz? 🤔 Me pregunto si será por problemas técnicos o por miedo al mal uso. Suena a que tiene mucho potencial, pero también da un poco de miedo pensando en el deepfake.
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
OpenAI的語音引擎:期待已久的發布?
去年三月底,OpenAI推出其AI服務語音引擎的「小規模預覽」,該服務承諾僅需15秒的語音即可複製一個人的聲音。一年後,該工具仍處於預覽模式,沒有明確的全面推出時間表,甚至無法確認它是否會正式問世。
對語音引擎廣泛推出的猶豫可能源於對濫用的擔憂,或是試圖規避監管審查。OpenAI過去曾因優先推出炫目產品而非安全,以及急於搶在競爭對手之前進入市場而受到批評。
一位OpenAI發言人向TechCrunch表示,該公司仍在與一小群「可信夥伴」測試語音引擎。「我們正在從我們的夥伴如何使用這項技術中學習,以提升模型的實用性和安全性,」該發言人解釋道。「看到它的應用範圍從言語治療、語言學習到客戶支援、電玩角色和AI化身,真是令人興奮。」
語音引擎:迄今的旅程
語音引擎為OpenAI的文字轉語音API和ChatGPT的語音模式提供聲音,能生成極為自然、與原講者高度相似的語音。它將文字轉為語音,僅受某些內容指引的限制。然而,從一開始,推出過程就受到延遲和不斷變化的發布日期的困擾。
在2024年6月的部落格文章中,OpenAI詳細說明了語音引擎模型如何學習預測講者在給定文字下可能發出的聲音,考慮到不同的聲音、口音和說話風格。這使模型不僅能從文字生成語音,還能產生反映不同講者如何朗讀文字的「口語表達」。
根據TechCrunch看到的草稿部落格文章,語音引擎(當時稱為自訂聲音)原定於2024年3月7日加入OpenAI的API。計劃是最初向多達100位「可信開發者」提供存取權,優先考慮那些開發具有社會效益或展示創新且負責任使用技術的應用程式。OpenAI已為該服務註冊商標,並為「標準」聲音設定每百萬字元15美元的價格,為「高畫質」聲音設定每百萬字元30美元的價格。
但在最後一刻,公告被推遲。幾週後,OpenAI推出了語音引擎,但未提供註冊選項,僅限於自2023年底以來合作的一小群開發者使用。
「我們希望啟動關於負責任部署合成聲音的對話,以及社會如何適應這些新能力,」OpenAI在2024年3月底的公告部落格文章中表示。「根據這些對話和這些小規模測試的結果,我們將做出更明智的決定,關於是否以及如何大規模部署這項技術。」
漫長的開發之路
語音引擎自2022年開始開發,OpenAI在2023年夏季向全球政策制定者展示了其潛力與風險。目前,幾個夥伴已可使用語音引擎,包括新創公司Livox,該公司旨在幫助殘疾人士更自然地溝通。然而,Livox執行長Carlos Pereira指出,他們無法將語音引擎整合到產品中,因為它需要網路連線,而許多客戶缺乏這種條件。「聲音的品質以及聲音能以不同語言說話的能力是獨特的——特別是對我們的殘疾客戶來說,」Pereira透過電子郵件向TechCrunch表示。「這是我見過最令人印象深刻且易於使用的創建聲音工具……我們希望OpenAI盡快開發離線版本。」
Pereira尚未從OpenAI收到關於潛在發布日期或服務收費計劃的任何指示,目前Livox尚未為其使用付費。
在2024年6月的文章中,OpenAI表示推遲語音引擎的原因之一是美國選舉週期中可能的濫用風險。該公司已實施安全措施,包括為生成的音訊添加水印以追蹤來源。開發者必須獲得原講者的「明確同意」,並向其受眾「清楚披露」聲音是由AI生成的。然而,OpenAI尚未詳細說明如何在大規模執行這些政策,這可能是一個重大挑戰。
OpenAI還暗示正在打造「語音驗證體驗」以驗證講者身份,並建立「禁止名單」以防止創建與知名人物相似的聲音。這些都是雄心勃勃的項目,任何失誤都可能進一步損害OpenAI在安全措施方面的聲譽。
有效的過濾和身份驗證正成為負責任發布語音複製技術的關鍵。AI語音複製是2024年第三快速增長的詐騙形式,導致詐騙和繞過銀行安全檢查,因為隱私和版權法難以跟上步伐。惡意行為者已使用語音複製創建名人與政治人物的深度偽造,這些偽造內容在社群媒體上迅速傳播。
OpenAI可能下週發布語音引擎,也可能永遠不會發生。該公司提到考慮保持該服務的小規模範圍。但有一件事是肯定的:無論是為了形象、安全還是兩者兼具,語音引擎的有限預覽已成為OpenAI史上最長的預覽之一。
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
五角大樓與英偉達、微軟和亞馬遜網路服務公司簽訂了協議,以便在機密網路中部署人工智慧技術。
在此前與谷歌、SpaceX和OpenAI達成協議之後,美國國防部於週五宣佈,它現已與Nvidia、微軟、亞馬遜網路服務和Reflection AI簽訂了合同,這些公司將會將其人工智慧技術和模型部署在保密網路上,用於“合法的操作用途”。宣告中還指出:“這些協議加速了將美國軍隊建設成為以人工智慧為核心作戰力量的程序,並將增強我們的戰士在所有戰爭領域保持決策優勢的能力。”這些協議的簽署,正值五角大樓試圖在與Anthropic就使用條款發生爭議後,多元化其人工智慧供應商的選擇。五角大樓希望無限制地使
これ、もう1年も経つのにまだプレビュー版なんだね。音声クローン技術って倫理的にすごくデリケートな問題だから、慎重に進めるのは理解できるけど、市場の期待はずっと先送りされてる感じ。他のAI企業はどんどん類似機能をリリースしてるのに、OpenAIは何を待ってるんだろう?🤔 もしかしたら、悪用防止の仕組みを完璧にしたいのかな。でも、待たされるユーザーとしては少しイライラするかも…
Ça fait un an qu'ils promettent cette technologie et toujours rien ? 😅 Moi qui voulais créer une voix IA de mon chat, je crois que je vais devoir attendre encore longtemps. C'est bizarre cette absence de calendrier, peut-être qu'ils ont des problèmes éthiques à régler ?
これ、去年発表されたまま音沙汰ないんですね🤔 声の合成技術は確かにすごいけど、どんな懸念があって公開をためらっているのか気になります。もしかして悪用されそうで怖いからかな?早く使ってみたいけど、慎重になる気持ちもわかる…
¿Un año y todavía no han soltado esa herramienta de clonación de voz? 🤔 Me pregunto si será por problemas técnicos o por miedo al mal uso. Suena a que tiene mucho potencial, pero también da un poco de miedo pensando en el deepfake.
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬





首頁






