OpenAI verbessert seine Transkriptions- und Sprach-generierende KI-Modelle
OpenAI setzt neue KI -Modelle für die Transkription und Sprachgenerierung über seine API aus und verspricht signifikante Verbesserungen gegenüber ihren früheren Versionen. Diese Updates sind Teil des größeren "Agenten" -Visions von OpenAI, das sich auf die Erstellung autonomer Systeme konzentriert, die Aufgaben unabhängig für Benutzer ausführen können. Während der Begriff "Agent" diskutiert werden kann, sieht Openais Leiter des Produkts Olivier Godement ihn als Chatbot an, der mit den Kunden eines Unternehmens interagieren kann.
"Wir werden in den kommenden Monaten immer mehr Agenten auftauchen", teilte Godement während eines Briefings mit TechCrunch. "Das übergeordnete Ziel ist es, Kunden und Entwicklern bei der Nutzung von Agenten zu unterstützen, die nützlich, zugänglich und präzise sind."
Das neueste Text-zu-Sprache-Modell von OpenAI, genannt "GPT-4O-Mini-TTS", zielt nicht nur darauf ab, eine lebensechtere und nuanciertere Sprache zu produzieren, sondern auch anpassungsfähiger als seine Vorgänger. Entwickler können das Modell nun mit natürlichen Sprachbefehlen wie "Sprechen Sie wie ein verrückter Wissenschaftler" oder "eine ruhige Stimme wie ein Achtsamkeitslehrer" leiten. Diese Kontrolle ermöglicht ein personalisierteres Spracherlebnis.
Hier ist eine Stichprobe einer "wahren Kriminalitätsstil", verwitterte Stimme:
Und hier ist ein Beispiel für eine weibliche "professionelle" Stimme:
Jeff Harris, ein Mitglied des Produktteams von OpenAI, betonte TechCrunch, dass das Ziel darin besteht, Entwicklern sowohl die "Erfahrung" als auch "Kontext" anzupassen. "In verschiedenen Szenarien wollen Sie keine eintönige Stimme", erklärte Harris. "Zum Beispiel können Sie in einer Kundenunterstützungsumgebung, in der die Stimme für einen Fehler entschuldigt, diese Emotionen in die Stimme einfließen lassen. Wir glauben fest daran, dass Entwickler und Benutzer nicht nur den Inhalt, sondern auch die Art der Sprache kontrollieren möchten."
Diese Modelle wechseln zu OpenAIs neuen Speech-to-Text-Angeboten "GPT-4O-Transcribe" und "GPT-4O-Mini-Trancribe" und ersetzen das veraltete Flütertranskriptionsmodell. Ausgebildet auf einer Vielzahl hochwertiger Audiodaten, behaupten sie, auch in lauten Einstellungen eine bessere akzentuierte und vielfältige Sprache zu behandeln. Darüber hinaus sind diese Modelle weniger anfällig für "Halluzinationen", ein Problem, bei dem Whisper manchmal Wörter oder ganze Passagen erfinden und Ungenauigkeiten wie rassistischer Kommentar oder fiktive medizinische Behandlungen für Transkripte hinzufügen.
"Diese Modelle zeigen in dieser Hinsicht eine signifikante Verbesserung gegenüber Whisper", bemerkte Harris. "Sicherstellen, dass die Genauigkeit der Modellgenauigkeit für eine zuverlässige Spracherfahrung von entscheidender Bedeutung ist, und unter Genauigkeit meinen wir die Modelle korrekt die gesprochenen Wörter erfassen, ohne stimmhafte Inhalte hinzuzufügen."
Die Leistung kann jedoch über die Sprachen hinweg variieren. Die internen Benchmarks von OpenAI zeigen, dass GPT-4O-transkribe, je präziser der beiden, eine "Wortfehlerrate" von 30% für IND-Sprachen und dravidische Sprachen wie Tamil, Telugu, Malayalam und Kannada aufweist. Dies deutet darauf hin, dass etwa drei von zehn Wörtern von einer menschlichen Transkription in diesen Sprachen unterscheiden können.

Die Ergebnisse aus OpenAI -Transkriptionsbenchmarking. Bildnachweis: OpenAI
In einer Abkehr von ihrer üblichen Praxis wird OpenAI diese neuen Transkriptionsmodelle nicht frei verfügbar machen. In der Vergangenheit haben sie neue Flüsterversionen unter einer MIT -Lizenz für die kommerzielle Nutzung veröffentlicht. Harris wies darauf hin, dass GPT-4O-transkribe und GPT-4O-Mini-Trancribe deutlich größer sind als Flüsterteile, was sie für die offene Freigabe ungeeignet macht.
"Diese Modelle sind zu groß, um auf einem typischen Laptop wie Whisper zu laufen", fügte Harris hinzu. "Wenn wir Modelle offen veröffentlichen, möchten wir es nachdenklich tun und sicherstellen, dass sie auf bestimmte Anforderungen zugeschnitten sind. Wir sehen Endbenutzergeräte als Hauptbereich für Open-Source-Modelle."
Aktualisiert am 20. März 2025, 11:54 Uhr PT, um die Sprache um die Wortfehlerrate zu klären und das Benchmark -Ergebnisdiagramm mit einer neueren Version zu aktualisieren.
Verwandter Artikel
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
Kommentare (30)
0/200
ThomasBaker
12. April 2025 00:00:00 GMT
OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀
0
EmmaTurner
12. April 2025 00:00:00 GMT
OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀
0
DanielThomas
11. April 2025 00:00:00 GMT
OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀
0
JasonMartin
15. April 2025 00:00:00 GMT
Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀
0
RobertLewis
10. April 2025 00:00:00 GMT
OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀
0
OliverPhillips
12. April 2025 00:00:00 GMT
OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖
0
OpenAI setzt neue KI -Modelle für die Transkription und Sprachgenerierung über seine API aus und verspricht signifikante Verbesserungen gegenüber ihren früheren Versionen. Diese Updates sind Teil des größeren "Agenten" -Visions von OpenAI, das sich auf die Erstellung autonomer Systeme konzentriert, die Aufgaben unabhängig für Benutzer ausführen können. Während der Begriff "Agent" diskutiert werden kann, sieht Openais Leiter des Produkts Olivier Godement ihn als Chatbot an, der mit den Kunden eines Unternehmens interagieren kann.
"Wir werden in den kommenden Monaten immer mehr Agenten auftauchen", teilte Godement während eines Briefings mit TechCrunch. "Das übergeordnete Ziel ist es, Kunden und Entwicklern bei der Nutzung von Agenten zu unterstützen, die nützlich, zugänglich und präzise sind."
Das neueste Text-zu-Sprache-Modell von OpenAI, genannt "GPT-4O-Mini-TTS", zielt nicht nur darauf ab, eine lebensechtere und nuanciertere Sprache zu produzieren, sondern auch anpassungsfähiger als seine Vorgänger. Entwickler können das Modell nun mit natürlichen Sprachbefehlen wie "Sprechen Sie wie ein verrückter Wissenschaftler" oder "eine ruhige Stimme wie ein Achtsamkeitslehrer" leiten. Diese Kontrolle ermöglicht ein personalisierteres Spracherlebnis.
Hier ist eine Stichprobe einer "wahren Kriminalitätsstil", verwitterte Stimme:
Und hier ist ein Beispiel für eine weibliche "professionelle" Stimme:
Jeff Harris, ein Mitglied des Produktteams von OpenAI, betonte TechCrunch, dass das Ziel darin besteht, Entwicklern sowohl die "Erfahrung" als auch "Kontext" anzupassen. "In verschiedenen Szenarien wollen Sie keine eintönige Stimme", erklärte Harris. "Zum Beispiel können Sie in einer Kundenunterstützungsumgebung, in der die Stimme für einen Fehler entschuldigt, diese Emotionen in die Stimme einfließen lassen. Wir glauben fest daran, dass Entwickler und Benutzer nicht nur den Inhalt, sondern auch die Art der Sprache kontrollieren möchten."
Diese Modelle wechseln zu OpenAIs neuen Speech-to-Text-Angeboten "GPT-4O-Transcribe" und "GPT-4O-Mini-Trancribe" und ersetzen das veraltete Flütertranskriptionsmodell. Ausgebildet auf einer Vielzahl hochwertiger Audiodaten, behaupten sie, auch in lauten Einstellungen eine bessere akzentuierte und vielfältige Sprache zu behandeln. Darüber hinaus sind diese Modelle weniger anfällig für "Halluzinationen", ein Problem, bei dem Whisper manchmal Wörter oder ganze Passagen erfinden und Ungenauigkeiten wie rassistischer Kommentar oder fiktive medizinische Behandlungen für Transkripte hinzufügen.
"Diese Modelle zeigen in dieser Hinsicht eine signifikante Verbesserung gegenüber Whisper", bemerkte Harris. "Sicherstellen, dass die Genauigkeit der Modellgenauigkeit für eine zuverlässige Spracherfahrung von entscheidender Bedeutung ist, und unter Genauigkeit meinen wir die Modelle korrekt die gesprochenen Wörter erfassen, ohne stimmhafte Inhalte hinzuzufügen."
Die Leistung kann jedoch über die Sprachen hinweg variieren. Die internen Benchmarks von OpenAI zeigen, dass GPT-4O-transkribe, je präziser der beiden, eine "Wortfehlerrate" von 30% für IND-Sprachen und dravidische Sprachen wie Tamil, Telugu, Malayalam und Kannada aufweist. Dies deutet darauf hin, dass etwa drei von zehn Wörtern von einer menschlichen Transkription in diesen Sprachen unterscheiden können.
In einer Abkehr von ihrer üblichen Praxis wird OpenAI diese neuen Transkriptionsmodelle nicht frei verfügbar machen. In der Vergangenheit haben sie neue Flüsterversionen unter einer MIT -Lizenz für die kommerzielle Nutzung veröffentlicht. Harris wies darauf hin, dass GPT-4O-transkribe und GPT-4O-Mini-Trancribe deutlich größer sind als Flüsterteile, was sie für die offene Freigabe ungeeignet macht.
"Diese Modelle sind zu groß, um auf einem typischen Laptop wie Whisper zu laufen", fügte Harris hinzu. "Wenn wir Modelle offen veröffentlichen, möchten wir es nachdenklich tun und sicherstellen, dass sie auf bestimmte Anforderungen zugeschnitten sind. Wir sehen Endbenutzergeräte als Hauptbereich für Open-Source-Modelle."
Aktualisiert am 20. März 2025, 11:54 Uhr PT, um die Sprache um die Wortfehlerrate zu klären und das Benchmark -Ergebnisdiagramm mit einer neueren Version zu aktualisieren.




OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀




OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀




OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀




Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀




OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀




OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖












