Maison Nouvelles OpenAI améliore ses modèles de transcription et de génération de voix

OpenAI améliore ses modèles de transcription et de génération de voix

10 avril 2025
CharlesWhite
6

OpenAI déploie de nouveaux modèles d'IA pour la transcription et la génération de voix via son API, promettant des améliorations significatives par rapport à leurs versions antérieures. Ces mises à jour font partie de la plus grande vision "agentique" d'OpenAI, qui se concentre sur la création de systèmes autonomes capables d'effectuer des tâches indépendamment pour les utilisateurs. Bien que le terme "agent" puisse être débattu, le responsable du produit d'Openai, Olivier Guicond, le voit comme un chatbot qui peut interagir avec les clients d'une entreprise.

"Nous allons voir de plus en plus d'agents émerger dans les prochains mois", a expliqué Godment avec TechCrunch lors d'un briefing. "L'objectif primordial est d'aider les clients et les développeurs à utiliser des agents utiles, accessibles et précis."

Le dernier modèle de texte vocale d'OpenAI, surnommé "GPT-4O-MINI-TTS", vise non seulement à produire plus de discours réaliste et nuancé, mais est également plus adaptable que ses prédécesseurs. Les développeurs peuvent désormais guider le modèle en utilisant des commandes en langage naturel, telles que «parler comme un scientifique fou» ou «utiliser une voix sereine, comme un professeur de pleine conscience». Ce niveau de contrôle permet une expérience vocale plus personnalisée.

Voici un échantillon d'un «vrai style crime», une voix altérée:

Et voici un exemple de voix féminine "professionnelle":

Jeff Harris, membre de l'équipe de produits d'Openai, a souligné à TechCrunch que l'objectif est de permettre aux développeurs de personnaliser à la fois la "expérience" et le "contexte". "Dans divers scénarios, vous ne voulez pas de voix monotone", a expliqué Harris. "Par exemple, dans un paramètre de support client où la voix doit sembler apologétique pour une erreur, vous pouvez infuser cette émotion dans la voix. Nous croyons fermement que les développeurs et les utilisateurs veulent contrôler non seulement le contenu, mais la manière de la parole."

Passer aux nouvelles offres de parole d'Openai, "GPT-4O-Transcribe" et "GPT-4O-MINI-Transcribe", ces modèles sont définis pour remplacer le modèle de transcription Whisper obsolète. Formés sur une gamme diversifiée de données audio de haute qualité, ils prétendent mieux gérer la parole accentuée et variée, même dans des contextes bruyants. De plus, ces modèles sont moins sujets aux «hallucinations», un problème où Whisper inventerait parfois des mots ou des passages entiers, ajoutant des inexactitudes comme des commentaires raciaux ou des traitements médicaux fictifs aux transcriptions.

"Ces modèles montrent une amélioration significative par rapport à Whisper à cet égard", a noté Harris. "Assurer la précision du modèle est crucial pour une expérience vocale fiable, et par précision, nous voulons dire que les modèles capturent correctement les mots prononcés sans ajouter de contenu non vocal."

Cependant, les performances peuvent varier selon les langues. Les références internes d'OpenAI indiquent que GPT-4O-Transcribe, plus précis des deux, a un "taux d'erreur de mots" près de 30% pour les langues indic et dravidien comme le tamoul, le télougou, le malayalam et le kannada. Cela suggère qu'environ trois mots sur dix peuvent différer d'une transcription humaine dans ces langues.

Résultats de la transcription OpenAI

Les résultats de la transcription OpenAI d'analyse comparative. Crédits d'image: Openai

Dans un écart par rapport à leur pratique habituelle, OpenAI ne rendra ces nouveaux modèles de transcription gratuitement disponibles. Historiquement, ils ont publié de nouvelles versions Whisper sous une licence MIT pour une utilisation commerciale. Harris a souligné que GPT-4O-Transcribe et GPT-4O-MINI-Transcribe sont nettement plus importants que le chuchotement, ce qui les rend inadaptés à une version ouverte.

"Ces modèles sont trop grands pour fonctionner sur un ordinateur portable typique comme Whisper", a ajouté Harris. "Lorsque nous publions des modèles ouvertement, nous voulons le faire de manière réfléchie, en nous assurant qu'ils sont adaptés à des besoins spécifiques. Nous considérons les appareils d'utilisateur final comme une zone de choix pour les modèles open source."

Mis à jour le 20 mars 2025, 11 h 54 PT pour clarifier la langue autour du taux d'erreur de mots et mettre à jour le tableau des résultats de référence avec une version plus récente.

Article connexe
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them. Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
Commentaires (20)
0/200
ThomasBaker
ThomasBaker 11 avril 2025 18:32:00 UTC

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 11 avril 2025 21:05:15 UTC

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 10 avril 2025 19:20:36 UTC

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 14 avril 2025 21:30:18 UTC

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 10 avril 2025 15:34:07 UTC

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 11 avril 2025 17:06:16 UTC

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

Back to Top
OR