OpenAI améliore ses modèles de transcription et de génération de voix

Maison

Nouvelles

10 avril 2025

CharlesWhite

146

# openai # api

OpenAI déploie de nouveaux modèles d'IA pour la transcription et la génération de voix via son API, promettant des améliorations significatives par rapport à leurs versions antérieures. Ces mises à jour s'inscrivent dans la vision plus large d'OpenAI, dite "agentique", qui se concentre sur la création de systèmes autonomes capables d'exécuter des tâches de manière indépendante pour les utilisateurs. Bien que le terme "agent" puisse faire l'objet de débats, le responsable des produits d'OpenAI, Olivier Godement, le considère comme un chatbot capable d'interagir avec les clients d'une entreprise.

"Nous verrons de plus en plus d'agents émerger dans les mois à venir," a partagé Godement avec TechCrunch lors d'un briefing. "L'objectif principal est d'aider les clients et les développeurs à utiliser des agents utiles, accessibles et précis."

Le dernier modèle de synthèse vocale d'OpenAI, nommé "gpt-4o-mini-tts," vise non seulement à produire une parole plus réaliste et nuancée, mais il est également plus adaptable que ses prédécesseurs. Les développeurs peuvent désormais guider le modèle à l'aide de commandes en langage naturel, telles que "parle comme un savant fou" ou "utilise une voix sereine, comme un enseignant de pleine conscience." Ce niveau de contrôle permet une expérience vocale plus personnalisée.

Voici un exemple d'une voix usée de style "true crime" :

Et voici un exemple d'une voix féminine "professionnelle" :

Jeff Harris, membre de l'équipe produit d'OpenAI, a souligné à TechCrunch que l'objectif est de permettre aux développeurs de personnaliser à la fois l'expérience vocale et le contexte. "Dans divers scénarios, vous ne voulez pas d'une voix monotone," a expliqué Harris. "Par exemple, dans un contexte de support client où la voix doit sembler désolée pour une erreur, vous pouvez insuffler cette émotion dans la voix. Nous croyons fermement que les développeurs et les utilisateurs veulent contrôler non seulement le contenu, mais aussi la manière de parler."

En ce qui concerne les nouvelles offres de reconnaissance vocale d'OpenAI, "gpt-4o-transcribe" et "gpt-4o-mini-transcribe," ces modèles sont destinés à remplacer l'ancien modèle de transcription Whisper. Entraînés sur un large éventail de données audio de haute qualité, ils prétendent mieux gérer les discours accentués et variés, même dans des environnements bruyants. De plus, ces modèles sont moins susceptibles de produire des "hallucinations," un problème où Whisper inventait parfois des mots ou des passages entiers, ajoutant des inexactitudes comme des commentaires raciaux ou des traitements médicaux fictifs aux transcriptions.

"Ces modèles montrent une amélioration significative par rapport à Whisper à cet égard," a noté Harris. "Garantir la précision du modèle est crucial pour une expérience vocale fiable, et par précision, nous entendons que les modèles capturent correctement les mots prononcés sans ajouter de contenu non exprimé."

Cependant, les performances peuvent varier selon les langues. Les benchmarks internes d'OpenAI indiquent que gpt-4o-transcribe, le plus précis des deux, a un "taux d'erreur de mots" approchant 30 % pour les langues indiennes et dravidiennes comme le tamoul, le télougou, le malayalam et le kannada. Cela suggère qu'environ trois mots sur dix pourraient différer d'une transcription humaine dans ces langues.

Résultats de transcription OpenAI

Les résultats des benchmarks de transcription d'OpenAI. Crédits image : OpenAI

Contrairement à leur pratique habituelle, OpenAI ne rendra pas ces nouveaux modèles de transcription librement accessibles. Historiquement, ils ont publié de nouvelles versions de Whisper sous une licence MIT pour un usage commercial. Harris a souligné que gpt-4o-transcribe et gpt-4o-mini-transcribe sont значительно plus grands que Whisper, ce qui les rend inadaptés à une publication ouverte.

"Ces modèles sont trop volumineux pour fonctionner sur un ordinateur portable classique comme Whisper le pouvait," a ajouté Harris. "Lorsque nous publions des modèles ouvertement, nous voulons le faire de manière réfléchie, en nous assurant qu'ils sont adaptés à des besoins spécifiques. Nous voyons les appareils des utilisateurs finaux comme un domaine privilégié pour les modèles open-source."

Mis à jour le 20 mars 2025, 11:54 PT pour clarifier le langage autour du taux d'erreur de mots et mettre à jour le graphique des résultats de benchmark avec une version plus récente.

Article connexe

Un organisme à but non lucratif s'appuie sur des agents d'intelligence artificielle pour stimuler la collecte de fonds à des fins caritatives Alors que les grandes entreprises technologiques promeuvent les "agents" d'IA comme des stimulants de la productivité pour les entreprises, une organisation à but non lucratif démontre leur potentiel

Les plus grands laboratoires d'IA avertissent que l'humanité est en train de perdre le contrôle de la compréhension des systèmes d'IA Dans une démonstration d'unité sans précédent, des chercheurs d'OpenAI, de Google DeepMind, d'Anthropic et de Meta ont mis de côté leurs divergences pour lancer un avertissement collectif sur le dével

ChatGPT ajoute l'intégration de Google Drive et Dropbox pour l'accès aux fichiers ChatGPT améliore la productivité avec de nouvelles fonctionnalités d'entrepriseOpenAI a dévoilé deux nouvelles fonctionnalités puissantes qui transforment ChatGPT en un outil de productivité complet

commentaires (32)

0/200

Soumettre

FrankMartínez

19 août 2025 10:01:39 UTC+02:00

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández

23 juillet 2025 10:50:48 UTC+02:00

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor

20 avril 2025 21:57:07 UTC+02:00

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen

17 avril 2025 06:50:37 UTC+02:00

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen

17 avril 2025 06:38:26 UTC+02:00

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark

16 avril 2025 07:54:41 UTC+02:00

OpenAIの新しい音声認識と音声生成モデルは革命的です！ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります！🎙️💸

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée Clonage Vocal IA: Guide Ultime pour Maîtriser la Conversion de Voix

Plus

En vedette