OpenAI, um ein Jahr später noch ein Sprachkloning -Tool zu veröffentlichen
OpenAIs Voice Engine: Eine lang erwartete Veröffentlichung?
Ende letzten März stellte OpenAI eine „klein angelegte Vorschau“ seines KI-Dienstes Voice Engine vor, der versprach, die Stimme einer Person mit nur 15 Sekunden Sprachaufnahme zu klonen. Ein Jahr später befindet sich das Tool immer noch im Vorschaumodus, ohne klaren Zeitplan für eine vollständige Einführung – oder sogar eine Bestätigung, dass es jemals das Licht der Welt erblicken wird.
Die Zurückhaltung, Voice Engine breit einzuführen, könnte auf Bedenken hinsichtlich eines Missbrauchs zurückzuführen sein oder auf den Versuch, regulatorische Prüfungen zu umgehen. OpenAI wurde in der Vergangenheit kritisiert, weil es auffällige Produkte der Sicherheit vorzog und eilte, um vor Konkurrenten auf den Markt zu kommen.
Ein OpenAI-Sprecher erklärte gegenüber TechCrunch, dass das Unternehmen Voice Engine weiterhin mit einer ausgewählten Gruppe von „vertrauenswürdigen Partnern“ testet. „Wir lernen aus der Art und Weise, wie unsere Partner die Technologie nutzen, um die Nützlichkeit und Sicherheit des Modells zu verbessern“, erklärte der Sprecher. „Es war aufregend, die Anwendungen zu sehen, die von Sprachtherapie und Sprachenlernen über Kundensupport bis hin zu Videospielcharakteren und KI-Avataren reichen.“
Voice Engine: Der bisherige Weg
Voice Engine, das die Stimmen in OpenAIs Text-to-Speech-API und dem Voice Mode von ChatGPT antreibt, erzeugt bemerkenswert natürlich klingende Sprache, die der des ursprünglichen Sprechers sehr nahekommt. Es wandelt Text in Sprache um, eingeschränkt nur durch bestimmte inhaltliche Richtlinien. Allerdings war die Einführung von Anfang an von Verzögerungen und sich verschiebenden Veröffentlichungsterminen geplagt.
In einem Blogbeitrag vom Juni 2024 beschrieb OpenAI detailliert, wie das Voice Engine-Modell lernt, die Laute vorherzusagen, die ein Sprecher für einen gegebenen Text wahrscheinlich machen würde, unter Berücksichtigung verschiedener Stimmen, Akzente und Sprechstile. Dies ermöglicht dem Modell nicht nur, Sprache aus Text zu generieren, sondern auch „gesprochene Äußerungen“ zu erzeugen, die widerspiegeln, wie verschiedene Sprecher den Text laut aussprechen würden.
Ursprünglich sollte Voice Engine, damals Custom Voices genannt, am 7. März 2024 Teil der OpenAI-API werden, so ein von TechCrunch eingesehener Entwurf eines Blogbeitrags. Der Plan war, zunächst bis zu 100 „vertrauenswürdigen Entwicklern“ Zugang zu gewähren, mit Vorrang für diejenigen, die Apps mit sozialem Nutzen entwickeln oder innovative und verantwortungsvolle Nutzung der Technologie zeigen. OpenAI hatte den Dienst bereits markenrechtlich geschützt und Preise von 15 $ pro Million Zeichen für „Standard“-Stimmen und 30 $ pro Million Zeichen für „HD-Qualität“-Stimmen festgelegt.
Doch in letzter Minute wurde die Ankündigung verschoben. Einige Wochen später stellte OpenAI Voice Engine ohne Anmeldeoption vor und beschränkte den Zugang auf eine kleine Gruppe von Entwicklern, mit denen sie seit Ende 2023 zusammenarbeiteten.
„Wir hoffen, einen Dialog über die verantwortungsvolle Einführung synthetischer Stimmen zu beginnen und darüber, wie die Gesellschaft sich an diese neuen Möglichkeiten anpassen kann“, erklärte OpenAI in dem Blogbeitrag Ende März 2024. „Basierend auf diesen Gesprächen und den Ergebnissen dieser klein angelegten Tests werden wir eine fundiertere Entscheidung darüber treffen, ob und wie wir diese Technologie im großen Maßstab einsetzen.“
Ein langer Entwicklungsweg
Voice Engine wird seit 2022 entwickelt, wobei OpenAI im Sommer 2023 sein Potenzial – und seine Risiken – globalen Entscheidungsträgern vorstellte. Heute haben mehrere Partner Zugang zu Voice Engine, darunter das Startup Livox, das Menschen mit Behinderungen helfen möchte, natürlicher zu kommunizieren. Der Livox-CEO Carlos Pereira wies jedoch darauf hin, dass sie Voice Engine nicht in ihre Produkte integrieren konnten, da es eine Internetverbindung erfordert, die viele ihrer Kunden nicht haben. „Die Qualität der Stimme und die Fähigkeit, die Stimmen in verschiedenen Sprachen sprechen zu lassen, ist einzigartig – besonders für unsere Kunden mit Behinderungen“, erklärte Pereira gegenüber TechCrunch per E-Mail. „Es ist wirklich das beeindruckendste und benutzerfreundlichste Tool zur Erstellung von Stimmen, das ich gesehen habe... Wir hoffen, dass OpenAI bald eine Offline-Version entwickelt.“
Pereira hat von OpenAI keinerlei Hinweise auf ein mögliches Einführungsdatum oder Pläne, den Dienst kostenpflichtig zu machen, erhalten, und bisher musste Livox für die Nutzung nichts bezahlen.
In einem Beitrag vom Juni 2024 deutete OpenAI an, dass ein Grund für die Verzögerung von Voice Engine das Missbrauchspotenzial während des US-Wahlzyklus sei. Das Unternehmen hat Sicherheitsmaßnahmen eingeführt, einschließlich Wasserzeichen, um die Herkunft generierter Audios nachzuverfolgen. Entwickler müssen die „ausdrückliche Zustimmung“ des ursprünglichen Sprechers einholen und „klare Offenlegungen“ gegenüber ihrem Publikum machen, dass die Stimmen KI-generiert sind. OpenAI hat jedoch nicht detailliert beschrieben, wie diese Richtlinien im großen Maßstab durchgesetzt werden sollen, was eine erhebliche Herausforderung darstellen könnte.
OpenAI deutete auch an, eine „Stimmenauthentifizierungserfahrung“ zu entwickeln, um Sprecher zu verifizieren, und eine „No-Go“-Liste zu erstellen, um die Erstellung von Stimmen, die prominenten Persönlichkeiten ähneln, zu verhindern. Dies sind ambitionierte Projekte, und Fehltritte könnten OpenAIs Ruf in Bezug auf Sicherheitsinitiativen weiter schädigen.
Effektive Filterung und ID-Verifizierung werden immer wichtiger für die verantwortungsvolle Freigabe von Stimmklon-Technologie. KI-Stimmklonierung war 2024 der drittschnellstwachsende Betrug, der zu Fraud und der Umgehung von Bank-Sicherheitskontrollen führte, während Datenschutz- und Urheberrechtsgesetze Mühe haben, Schritt zu halten. Böswillige Akteure haben Stimmklonierung genutzt, um Deepfakes von Prominenten und Politikern zu erstellen, die sich schnell in sozialen Medien verbreitet haben.
OpenAI könnte Voice Engine nächste Woche veröffentlichen, oder es passiert vielleicht nie. Das Unternehmen hat angedeutet, den Dienst möglicherweise klein zu halten. Aber eines ist sicher: Ob aus Imagegründen, Sicherheitsbedenken oder beidem, die eingeschränkte Vorschau von Voice Engine ist eine der längsten in der Geschichte von OpenAI.
Verwandter Artikel
Oracles 40-Mrd.-Nvidia-Chip-Investition stärkt Texas AI-Rechenzentrum
Oracle plant, etwa 40 Milliarden Dollar in Nvidia-Chips zu investieren, um ein großes neues Rechenzentrum in Texas zu betreiben, das von OpenAI entwickelt wird, wie die Financial Times berichtet. Dies
SoftBank erwirbt Sharp-Fabrik für 676 Mio. USD für KI-Datenzentrum in Japan
SoftBank verfolgt sein Ziel, ein großes KI-Zentrum in Japan zu etablieren, sowohl eigenständig als auch durch Partnerschaften wie mit OpenAI. Der Technologieriese bestätigte am Freitag, dass er 676 Mi
Adobe und Figma Integrieren OpenAIs Fortschrittliches Bildgenerierungsmodell
OpenAIs verbesserte Bildgenerierung in ChatGPT hat einen Anstieg der Nutzerzahlen ausgelöst, angetrieben durch die Fähigkeit, Visuals im Stil von Studio Ghibli und einzigartige Designs zu erstellen, u
Kommentare (11)
0/200
FredLewis
2. August 2025 17:07:14 MESZ
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
0
PaulBrown
23. April 2025 11:20:58 MESZ
1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。
0
SamuelRoberts
23. April 2025 03:46:04 MESZ
Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.
0
WillMitchell
22. April 2025 08:48:14 MESZ
Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.
0
JamesWilliams
22. April 2025 04:55:40 MESZ
A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.
0
OpenAIs Voice Engine: Eine lang erwartete Veröffentlichung?
Ende letzten März stellte OpenAI eine „klein angelegte Vorschau“ seines KI-Dienstes Voice Engine vor, der versprach, die Stimme einer Person mit nur 15 Sekunden Sprachaufnahme zu klonen. Ein Jahr später befindet sich das Tool immer noch im Vorschaumodus, ohne klaren Zeitplan für eine vollständige Einführung – oder sogar eine Bestätigung, dass es jemals das Licht der Welt erblicken wird.
Die Zurückhaltung, Voice Engine breit einzuführen, könnte auf Bedenken hinsichtlich eines Missbrauchs zurückzuführen sein oder auf den Versuch, regulatorische Prüfungen zu umgehen. OpenAI wurde in der Vergangenheit kritisiert, weil es auffällige Produkte der Sicherheit vorzog und eilte, um vor Konkurrenten auf den Markt zu kommen.
Ein OpenAI-Sprecher erklärte gegenüber TechCrunch, dass das Unternehmen Voice Engine weiterhin mit einer ausgewählten Gruppe von „vertrauenswürdigen Partnern“ testet. „Wir lernen aus der Art und Weise, wie unsere Partner die Technologie nutzen, um die Nützlichkeit und Sicherheit des Modells zu verbessern“, erklärte der Sprecher. „Es war aufregend, die Anwendungen zu sehen, die von Sprachtherapie und Sprachenlernen über Kundensupport bis hin zu Videospielcharakteren und KI-Avataren reichen.“
Voice Engine: Der bisherige Weg
Voice Engine, das die Stimmen in OpenAIs Text-to-Speech-API und dem Voice Mode von ChatGPT antreibt, erzeugt bemerkenswert natürlich klingende Sprache, die der des ursprünglichen Sprechers sehr nahekommt. Es wandelt Text in Sprache um, eingeschränkt nur durch bestimmte inhaltliche Richtlinien. Allerdings war die Einführung von Anfang an von Verzögerungen und sich verschiebenden Veröffentlichungsterminen geplagt.
In einem Blogbeitrag vom Juni 2024 beschrieb OpenAI detailliert, wie das Voice Engine-Modell lernt, die Laute vorherzusagen, die ein Sprecher für einen gegebenen Text wahrscheinlich machen würde, unter Berücksichtigung verschiedener Stimmen, Akzente und Sprechstile. Dies ermöglicht dem Modell nicht nur, Sprache aus Text zu generieren, sondern auch „gesprochene Äußerungen“ zu erzeugen, die widerspiegeln, wie verschiedene Sprecher den Text laut aussprechen würden.
Ursprünglich sollte Voice Engine, damals Custom Voices genannt, am 7. März 2024 Teil der OpenAI-API werden, so ein von TechCrunch eingesehener Entwurf eines Blogbeitrags. Der Plan war, zunächst bis zu 100 „vertrauenswürdigen Entwicklern“ Zugang zu gewähren, mit Vorrang für diejenigen, die Apps mit sozialem Nutzen entwickeln oder innovative und verantwortungsvolle Nutzung der Technologie zeigen. OpenAI hatte den Dienst bereits markenrechtlich geschützt und Preise von 15 $ pro Million Zeichen für „Standard“-Stimmen und 30 $ pro Million Zeichen für „HD-Qualität“-Stimmen festgelegt.
Doch in letzter Minute wurde die Ankündigung verschoben. Einige Wochen später stellte OpenAI Voice Engine ohne Anmeldeoption vor und beschränkte den Zugang auf eine kleine Gruppe von Entwicklern, mit denen sie seit Ende 2023 zusammenarbeiteten.
„Wir hoffen, einen Dialog über die verantwortungsvolle Einführung synthetischer Stimmen zu beginnen und darüber, wie die Gesellschaft sich an diese neuen Möglichkeiten anpassen kann“, erklärte OpenAI in dem Blogbeitrag Ende März 2024. „Basierend auf diesen Gesprächen und den Ergebnissen dieser klein angelegten Tests werden wir eine fundiertere Entscheidung darüber treffen, ob und wie wir diese Technologie im großen Maßstab einsetzen.“
Ein langer Entwicklungsweg
Voice Engine wird seit 2022 entwickelt, wobei OpenAI im Sommer 2023 sein Potenzial – und seine Risiken – globalen Entscheidungsträgern vorstellte. Heute haben mehrere Partner Zugang zu Voice Engine, darunter das Startup Livox, das Menschen mit Behinderungen helfen möchte, natürlicher zu kommunizieren. Der Livox-CEO Carlos Pereira wies jedoch darauf hin, dass sie Voice Engine nicht in ihre Produkte integrieren konnten, da es eine Internetverbindung erfordert, die viele ihrer Kunden nicht haben. „Die Qualität der Stimme und die Fähigkeit, die Stimmen in verschiedenen Sprachen sprechen zu lassen, ist einzigartig – besonders für unsere Kunden mit Behinderungen“, erklärte Pereira gegenüber TechCrunch per E-Mail. „Es ist wirklich das beeindruckendste und benutzerfreundlichste Tool zur Erstellung von Stimmen, das ich gesehen habe... Wir hoffen, dass OpenAI bald eine Offline-Version entwickelt.“
Pereira hat von OpenAI keinerlei Hinweise auf ein mögliches Einführungsdatum oder Pläne, den Dienst kostenpflichtig zu machen, erhalten, und bisher musste Livox für die Nutzung nichts bezahlen.
In einem Beitrag vom Juni 2024 deutete OpenAI an, dass ein Grund für die Verzögerung von Voice Engine das Missbrauchspotenzial während des US-Wahlzyklus sei. Das Unternehmen hat Sicherheitsmaßnahmen eingeführt, einschließlich Wasserzeichen, um die Herkunft generierter Audios nachzuverfolgen. Entwickler müssen die „ausdrückliche Zustimmung“ des ursprünglichen Sprechers einholen und „klare Offenlegungen“ gegenüber ihrem Publikum machen, dass die Stimmen KI-generiert sind. OpenAI hat jedoch nicht detailliert beschrieben, wie diese Richtlinien im großen Maßstab durchgesetzt werden sollen, was eine erhebliche Herausforderung darstellen könnte.
OpenAI deutete auch an, eine „Stimmenauthentifizierungserfahrung“ zu entwickeln, um Sprecher zu verifizieren, und eine „No-Go“-Liste zu erstellen, um die Erstellung von Stimmen, die prominenten Persönlichkeiten ähneln, zu verhindern. Dies sind ambitionierte Projekte, und Fehltritte könnten OpenAIs Ruf in Bezug auf Sicherheitsinitiativen weiter schädigen.
Effektive Filterung und ID-Verifizierung werden immer wichtiger für die verantwortungsvolle Freigabe von Stimmklon-Technologie. KI-Stimmklonierung war 2024 der drittschnellstwachsende Betrug, der zu Fraud und der Umgehung von Bank-Sicherheitskontrollen führte, während Datenschutz- und Urheberrechtsgesetze Mühe haben, Schritt zu halten. Böswillige Akteure haben Stimmklonierung genutzt, um Deepfakes von Prominenten und Politikern zu erstellen, die sich schnell in sozialen Medien verbreitet haben.
OpenAI könnte Voice Engine nächste Woche veröffentlichen, oder es passiert vielleicht nie. Das Unternehmen hat angedeutet, den Dienst möglicherweise klein zu halten. Aber eines ist sicher: Ob aus Imagegründen, Sicherheitsbedenken oder beidem, die eingeschränkte Vorschau von Voice Engine ist eine der längsten in der Geschichte von OpenAI.


Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬




1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。




Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.




Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.




A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.












