OpenAI, um ein Jahr später noch ein Sprachkloning -Tool zu veröffentlichen
21. April 2025
AnthonyHernández
25
Openais Voice Engine: Eine lang erwartete Veröffentlichung?
Ende März führte OpenAI eine "kleine Vorschau" seines KI-Dienstes Voice Engine ein, das versprach, die Stimme einer Person mit nur 15 Sekunden Sprache zu klonen. Schnelles Vorlauf pro Jahr, und das Tool befindet sich immer noch im Vorschautmodus, ohne dass ein klarer Zeitplan für einen vollständigen Start - oder sogar die Bestätigung, dass es jemals das Licht des Tages erblicken wird.
Das Zögern, die Sprachmotor weit verbreitet zu machen, könnte auf Bedenken hinsichtlich des Missbrauchs oder vielleicht eines Versuchs zurückzuführen sein, die regulatorische Prüfung zu befriedigen. OpenAI wurde in der Vergangenheit kritisiert, weil er auffällige Produkte vor der Sicherheit und zum Ansturm auf den Markt vor den Wettbewerbern priorisieren.
Ein OpenAI -Sprecher teilte TechCrunch mit, dass das Unternehmen immer noch die Sprachmaschine mit einer ausgewählten Gruppe von "vertrauenswürdigen Partnern" testet. "Wir lernen, wie unsere Partner die Technologie nutzen, um den Nutzen und die Sicherheit des Modells zu verbessern", erklärte der Sprecher. "Es war aufregend, seine Anwendungen zu sehen, die von Sprachtherapie und Sprachlernen bis hin zu Kundenunterstützung, Videospielcharakteren und AI -Avataren reichten."
Voice Engine: Die bisherige Reise
Die Voice Engine, die die Stimmen in Openai's Text-to-Speech-API und Chatgpts Sprachmodus ansteigt, erzeugt eine bemerkenswert natürlich klingende Sprache, die den ursprünglichen Sprecher genau nachahmt. Es wandelt Text in Sprache um, die nur durch bestimmte Inhaltsrichtlinien eingeschränkt werden. Der Rollout wurde jedoch von Anfang an von Verzögerungen und Verschiebung von Veröffentlichungsdaten geplagt.
In einem Blog -Beitrag im Juni 2024 wurde OpenAI beschrieben, wie das Sprachmodell lernt, die Geräusche vorherzusagen, die ein Sprecher wahrscheinlich für einen bestimmten Text sorgen würde, wenn man verschiedene Stimmen, Akzente und Sprechstile berücksichtigt. Dies ermöglicht dem Modell nicht nur, Sprache aus dem Text zu generieren, sondern auch "gesprochene Äußerungen" zu erzeugen, die widerspiegeln, wie unterschiedliche Sprecher den Text laut sagen würden.
Ursprünglich sollte die Voice Engine, die dann benannte Stimmen genannt wurde, laut einem von TechCrunch gesehenen Blog -Post -Blog -Beitrag von Openai's API am 7. März 2024 angeschlossen. Der Plan war es, zunächst Zugang zu bis zu 100 "vertrauenswürdigen Entwicklern" zu bieten, um diejenigen zu priorisieren, die Apps mit sozialen Vorteilen entwickeln oder innovative und verantwortungsbewusste Nutzung der Technologie zeigen. OpenAI hatte den Service bereits als Markenzeichen versehen und die Preisgestaltung von 15 USD pro Million Charaktere für "Standard" -stimmen und 30 USD pro Million Charaktere für "HD -Qualität" -Stimmen festgelegt.
Aber im letzten Moment war die Ankündigung verzögert. Ein paar Wochen später enthüllte Openai die Sprachmaschine ohne Anmeldeoption und beschränkte den Zugang zu einer kleinen Gruppe von Entwicklern, mit denen sie seit Ende 2023 zusammengearbeitet haben.
"Wir hoffen, einen Dialog über den verantwortungsvollen Einsatz von synthetischen Stimmen und die Anpassung an diese neuen Funktionen zu beginnen", erklärte Openai Ende März 2024 Ankündigungsblog -Beitrag. "Basierend auf diesen Gesprächen und den Ergebnissen dieser kleinen Tests werden wir eine fundiertere Entscheidung darüber treffen, ob und wie diese Technologie im Maßstab bereitgestellt werden soll."
Eine lange Entwicklungsstraße
Seit 2022 befindet sich die Sprachmaschine. OpenAI zeigt im Sommer 2023 das Potenzial - und Risiken - den globalen politischen Entscheidungsträgern. Heute haben mehrere Partner Zugang zu Sprachmotor, einschließlich Startup Livox, was Menschen mit Behinderungen helfen soll, natürlicher zu kommunizieren. Carlos Pereira, CEO von Livox, stellte jedoch fest, dass sie Sprachmaschinen nicht in ihre Produkte integrieren konnten, da sie eine Internetverbindung benötigt, die vielen ihrer Kunden fehlt. "Die Qualität der Stimme und die Fähigkeit, die Stimmen in verschiedenen Sprachen sprechen zu lassen, ist einzigartig - insbesondere für unsere Kunden mit Behinderungen", sagte Pereira gegenüber TechCrunch per E -Mail. "Es ist wirklich das beeindruckendste und benutzerfreundlichste Tool, um Stimmen zu erstellen, die ich gesehen habe ... Wir hoffen, dass Openai bald eine Offline-Version entwickelt."
Pereira hat von OpenAI keine Hinweise zu einem potenziellen Startdatum oder einer Gebühr für den Dienst erhalten, und bisher musste Livox nicht für seine Verwendung bezahlen.
In einem Posten im Juni 2024 schlug Openai vor, dass ein Grund für die Verzögerung der Sprachmotor das Potenzial für Missbrauch während des US -Wahlzyklus war. Das Unternehmen hat Sicherheitsmaßnahmen durchgeführt, einschließlich Wasserzeichen, um den Ursprung des generierten Audios zu verfolgen. Entwickler müssen "explizite Zustimmung" vom ursprünglichen Sprecher einholen und ihrem Publikum "klare Offenlegungen" machen, dass Stimmen mit AI-generiert sind. OpenAI hat jedoch nicht detailliert, wie diese Richtlinien im Maßstab durchgesetzt werden, was eine bedeutende Herausforderung darstellen könnte.
OpenAI deutete auch darauf hin, eine "Sprachauthentifizierungserfahrung" zu erstellen, um die Lautsprecher und eine "No-Go" -Liste zu verifizieren, um die Erstellung von Stimmen zu verhindern, die prominenten Zahlen ähneln. Dies sind ehrgeizige Projekte, und alle Fehltritte könnten den Ruf von OpenAI in Bezug auf Sicherheitsinitiativen weiter schädigen.
Effektive Filterung und ID -Überprüfung werden für die verantwortungsbewusste Freigabe der Sprachkloning -Technologie von wesentlicher Bedeutung. Das Klonieren von AI-Sprachkörpern war der drittgräbigste Betrug von 2024, der zu Betrug und Umgehung der Sicherheitskontrollen der Bank führte, da die Privatsphäre und das Urheberrechtsgesetze Schwierigkeiten haben, Schritt zu halten. Bösartige Schauspieler haben das Klonen von Sprachklonen benutzt, um Deepfakes von Prominenten und Politikern zu schaffen, die sich in den sozialen Medien rasch verbreitet haben.
OpenAI könnte nächste Woche Sprachmaschine veröffentlichen, oder es könnte nie passieren. Das Unternehmen hat erwähnt, dass der Service im Umfang klein ist. Eines ist jedoch sicher: Ob für Optik, Sicherheit oder beides die begrenzte Vorschau von Voice Engine zu einer der längsten in der Geschichte von Openai.
Verwandter Artikel
Google Search는 복잡한 다중 부분 쿼리에 대한 'AI 모드'를 소개합니다
Google은 Perplexity AI와 경쟁하기 위해 "AI Mode"를 공개하고 ChatgptGoogle은 검색 엔진에서 실험적인 "AI 모드"기능을 시작하여 AI 경기장에서 게임을 강화하고 있습니다. Perplexity AI 및 OpenAi의 ChatGpt 검색을 좋아하는이 새로운 모드는 Wed에서 발표되었습니다.
Chatgpt의 원치 않는 사용자 이름 사용은 일부 사람들 사이에서 '소름 끼치는'우려를 불러 일으 킵니다.
Chatgpt의 일부 사용자는 최근에 이상한 새로운 기능을 발견했습니다. 챗봇은 때때로 문제를 해결하면서 자신의 이름을 사용합니다. 이것은 이전의 일반적인 행동의 일부가 아니 었으며, 많은 사용자들은 Chatgpt가 자신의 이름을 말하지 않고 자신의 이름을 언급했다고보고합니다. 에 대한 의견
Openai는 Chatgpt를 향상시켜 이전 대화를 기억합니다
Openai는 목요일에 Chatgpt에서 "Memory"라는 새로운 기능을 출시하는 것에 대해 큰 발표를했습니다. 이 멋진 도구는 이전에 말한 내용을 기억하여 AI와의 채팅을보다 개인화하도록 설계되었습니다. 새 운송을 시작할 때마다 자신을 반복 할 필요가 없다고 상상해보십시오.
Kommentare (5)
0/200
StephenScott
21. April 2025 23:54:47 GMT
It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞
0
WillieHernández
21. April 2025 23:54:47 GMT
オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞
0
BillyWilson
21. April 2025 23:54:47 GMT
오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞
0
KennethKing
21. April 2025 23:54:47 GMT
Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞
0
JeffreyThomas
21. April 2025 23:54:47 GMT
¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞
0






Openais Voice Engine: Eine lang erwartete Veröffentlichung?
Ende März führte OpenAI eine "kleine Vorschau" seines KI-Dienstes Voice Engine ein, das versprach, die Stimme einer Person mit nur 15 Sekunden Sprache zu klonen. Schnelles Vorlauf pro Jahr, und das Tool befindet sich immer noch im Vorschautmodus, ohne dass ein klarer Zeitplan für einen vollständigen Start - oder sogar die Bestätigung, dass es jemals das Licht des Tages erblicken wird.
Das Zögern, die Sprachmotor weit verbreitet zu machen, könnte auf Bedenken hinsichtlich des Missbrauchs oder vielleicht eines Versuchs zurückzuführen sein, die regulatorische Prüfung zu befriedigen. OpenAI wurde in der Vergangenheit kritisiert, weil er auffällige Produkte vor der Sicherheit und zum Ansturm auf den Markt vor den Wettbewerbern priorisieren.
Ein OpenAI -Sprecher teilte TechCrunch mit, dass das Unternehmen immer noch die Sprachmaschine mit einer ausgewählten Gruppe von "vertrauenswürdigen Partnern" testet. "Wir lernen, wie unsere Partner die Technologie nutzen, um den Nutzen und die Sicherheit des Modells zu verbessern", erklärte der Sprecher. "Es war aufregend, seine Anwendungen zu sehen, die von Sprachtherapie und Sprachlernen bis hin zu Kundenunterstützung, Videospielcharakteren und AI -Avataren reichten."
Voice Engine: Die bisherige Reise
Die Voice Engine, die die Stimmen in Openai's Text-to-Speech-API und Chatgpts Sprachmodus ansteigt, erzeugt eine bemerkenswert natürlich klingende Sprache, die den ursprünglichen Sprecher genau nachahmt. Es wandelt Text in Sprache um, die nur durch bestimmte Inhaltsrichtlinien eingeschränkt werden. Der Rollout wurde jedoch von Anfang an von Verzögerungen und Verschiebung von Veröffentlichungsdaten geplagt.
In einem Blog -Beitrag im Juni 2024 wurde OpenAI beschrieben, wie das Sprachmodell lernt, die Geräusche vorherzusagen, die ein Sprecher wahrscheinlich für einen bestimmten Text sorgen würde, wenn man verschiedene Stimmen, Akzente und Sprechstile berücksichtigt. Dies ermöglicht dem Modell nicht nur, Sprache aus dem Text zu generieren, sondern auch "gesprochene Äußerungen" zu erzeugen, die widerspiegeln, wie unterschiedliche Sprecher den Text laut sagen würden.
Ursprünglich sollte die Voice Engine, die dann benannte Stimmen genannt wurde, laut einem von TechCrunch gesehenen Blog -Post -Blog -Beitrag von Openai's API am 7. März 2024 angeschlossen. Der Plan war es, zunächst Zugang zu bis zu 100 "vertrauenswürdigen Entwicklern" zu bieten, um diejenigen zu priorisieren, die Apps mit sozialen Vorteilen entwickeln oder innovative und verantwortungsbewusste Nutzung der Technologie zeigen. OpenAI hatte den Service bereits als Markenzeichen versehen und die Preisgestaltung von 15 USD pro Million Charaktere für "Standard" -stimmen und 30 USD pro Million Charaktere für "HD -Qualität" -Stimmen festgelegt.
Aber im letzten Moment war die Ankündigung verzögert. Ein paar Wochen später enthüllte Openai die Sprachmaschine ohne Anmeldeoption und beschränkte den Zugang zu einer kleinen Gruppe von Entwicklern, mit denen sie seit Ende 2023 zusammengearbeitet haben.
"Wir hoffen, einen Dialog über den verantwortungsvollen Einsatz von synthetischen Stimmen und die Anpassung an diese neuen Funktionen zu beginnen", erklärte Openai Ende März 2024 Ankündigungsblog -Beitrag. "Basierend auf diesen Gesprächen und den Ergebnissen dieser kleinen Tests werden wir eine fundiertere Entscheidung darüber treffen, ob und wie diese Technologie im Maßstab bereitgestellt werden soll."
Eine lange Entwicklungsstraße
Seit 2022 befindet sich die Sprachmaschine. OpenAI zeigt im Sommer 2023 das Potenzial - und Risiken - den globalen politischen Entscheidungsträgern. Heute haben mehrere Partner Zugang zu Sprachmotor, einschließlich Startup Livox, was Menschen mit Behinderungen helfen soll, natürlicher zu kommunizieren. Carlos Pereira, CEO von Livox, stellte jedoch fest, dass sie Sprachmaschinen nicht in ihre Produkte integrieren konnten, da sie eine Internetverbindung benötigt, die vielen ihrer Kunden fehlt. "Die Qualität der Stimme und die Fähigkeit, die Stimmen in verschiedenen Sprachen sprechen zu lassen, ist einzigartig - insbesondere für unsere Kunden mit Behinderungen", sagte Pereira gegenüber TechCrunch per E -Mail. "Es ist wirklich das beeindruckendste und benutzerfreundlichste Tool, um Stimmen zu erstellen, die ich gesehen habe ... Wir hoffen, dass Openai bald eine Offline-Version entwickelt."
Pereira hat von OpenAI keine Hinweise zu einem potenziellen Startdatum oder einer Gebühr für den Dienst erhalten, und bisher musste Livox nicht für seine Verwendung bezahlen.
In einem Posten im Juni 2024 schlug Openai vor, dass ein Grund für die Verzögerung der Sprachmotor das Potenzial für Missbrauch während des US -Wahlzyklus war. Das Unternehmen hat Sicherheitsmaßnahmen durchgeführt, einschließlich Wasserzeichen, um den Ursprung des generierten Audios zu verfolgen. Entwickler müssen "explizite Zustimmung" vom ursprünglichen Sprecher einholen und ihrem Publikum "klare Offenlegungen" machen, dass Stimmen mit AI-generiert sind. OpenAI hat jedoch nicht detailliert, wie diese Richtlinien im Maßstab durchgesetzt werden, was eine bedeutende Herausforderung darstellen könnte.
OpenAI deutete auch darauf hin, eine "Sprachauthentifizierungserfahrung" zu erstellen, um die Lautsprecher und eine "No-Go" -Liste zu verifizieren, um die Erstellung von Stimmen zu verhindern, die prominenten Zahlen ähneln. Dies sind ehrgeizige Projekte, und alle Fehltritte könnten den Ruf von OpenAI in Bezug auf Sicherheitsinitiativen weiter schädigen.
Effektive Filterung und ID -Überprüfung werden für die verantwortungsbewusste Freigabe der Sprachkloning -Technologie von wesentlicher Bedeutung. Das Klonieren von AI-Sprachkörpern war der drittgräbigste Betrug von 2024, der zu Betrug und Umgehung der Sicherheitskontrollen der Bank führte, da die Privatsphäre und das Urheberrechtsgesetze Schwierigkeiten haben, Schritt zu halten. Bösartige Schauspieler haben das Klonen von Sprachklonen benutzt, um Deepfakes von Prominenten und Politikern zu schaffen, die sich in den sozialen Medien rasch verbreitet haben.
OpenAI könnte nächste Woche Sprachmaschine veröffentlichen, oder es könnte nie passieren. Das Unternehmen hat erwähnt, dass der Service im Umfang klein ist. Eines ist jedoch sicher: Ob für Optik, Sicherheit oder beides die begrenzte Vorschau von Voice Engine zu einer der längsten in der Geschichte von Openai.




It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞




オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞




오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞




Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞




¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞












