option
Maison
Nouvelles
OpenAI améliore ses modèles de transcription et de génération de voix

OpenAI améliore ses modèles de transcription et de génération de voix

10 avril 2025
227

OpenAI déploie de nouveaux modèles d'IA pour la transcription et la génération de voix via son API, promettant des améliorations significatives par rapport à leurs versions antérieures. Ces mises à jour s'inscrivent dans la vision plus large d'OpenAI, dite "agentique", qui se concentre sur la création de systèmes autonomes capables d'exécuter des tâches de manière indépendante pour les utilisateurs. Bien que le terme "agent" puisse faire l'objet de débats, le responsable des produits d'OpenAI, Olivier Godement, le considère comme un chatbot capable d'interagir avec les clients d'une entreprise.

"Nous verrons de plus en plus d'agents émerger dans les mois à venir," a partagé Godement avec TechCrunch lors d'un briefing. "L'objectif principal est d'aider les clients et les développeurs à utiliser des agents utiles, accessibles et précis."

Le dernier modèle de synthèse vocale d'OpenAI, nommé "gpt-4o-mini-tts," vise non seulement à produire une parole plus réaliste et nuancée, mais il est également plus adaptable que ses prédécesseurs. Les développeurs peuvent désormais guider le modèle à l'aide de commandes en langage naturel, telles que "parle comme un savant fou" ou "utilise une voix sereine, comme un enseignant de pleine conscience." Ce niveau de contrôle permet une expérience vocale plus personnalisée.

Voici un exemple d'une voix usée de style "true crime" :

Et voici un exemple d'une voix féminine "professionnelle" :

Jeff Harris, membre de l'équipe produit d'OpenAI, a souligné à TechCrunch que l'objectif est de permettre aux développeurs de personnaliser à la fois l'expérience vocale et le contexte. "Dans divers scénarios, vous ne voulez pas d'une voix monotone," a expliqué Harris. "Par exemple, dans un contexte de support client où la voix doit sembler désolée pour une erreur, vous pouvez insuffler cette émotion dans la voix. Nous croyons fermement que les développeurs et les utilisateurs veulent contrôler non seulement le contenu, mais aussi la manière de parler."

En ce qui concerne les nouvelles offres de reconnaissance vocale d'OpenAI, "gpt-4o-transcribe" et "gpt-4o-mini-transcribe," ces modèles sont destinés à remplacer l'ancien modèle de transcription Whisper. Entraînés sur un large éventail de données audio de haute qualité, ils prétendent mieux gérer les discours accentués et variés, même dans des environnements bruyants. De plus, ces modèles sont moins susceptibles de produire des "hallucinations," un problème où Whisper inventait parfois des mots ou des passages entiers, ajoutant des inexactitudes comme des commentaires raciaux ou des traitements médicaux fictifs aux transcriptions.

"Ces modèles montrent une amélioration significative par rapport à Whisper à cet égard," a noté Harris. "Garantir la précision du modèle est crucial pour une expérience vocale fiable, et par précision, nous entendons que les modèles capturent correctement les mots prononcés sans ajouter de contenu non exprimé."

Cependant, les performances peuvent varier selon les langues. Les benchmarks internes d'OpenAI indiquent que gpt-4o-transcribe, le plus précis des deux, a un "taux d'erreur de mots" approchant 30 % pour les langues indiennes et dravidiennes comme le tamoul, le télougou, le malayalam et le kannada. Cela suggère qu'environ trois mots sur dix pourraient différer d'une transcription humaine dans ces langues.

Résultats de transcription OpenAI

Les résultats des benchmarks de transcription d'OpenAI. Crédits image : OpenAI

Contrairement à leur pratique habituelle, OpenAI ne rendra pas ces nouveaux modèles de transcription librement accessibles. Historiquement, ils ont publié de nouvelles versions de Whisper sous une licence MIT pour un usage commercial. Harris a souligné que gpt-4o-transcribe et gpt-4o-mini-transcribe sont значительно plus grands que Whisper, ce qui les rend inadaptés à une publication ouverte.

"Ces modèles sont trop volumineux pour fonctionner sur un ordinateur portable classique comme Whisper le pouvait," a ajouté Harris. "Lorsque nous publions des modèles ouvertement, nous voulons le faire de manière réfléchie, en nous assurant qu'ils sont adaptés à des besoins spécifiques. Nous voyons les appareils des utilisateurs finaux comme un domaine privilégié pour les modèles open-source."

Mis à jour le 20 mars 2025, 11:54 PT pour clarifier le langage autour du taux d'erreur de mots et mettre à jour le graphique des résultats de benchmark avec une version plus récente.

Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI Greg Brockman révèle comment Elon Musk a quitté OpenAI Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
Synthèse vocale Les meilleures applications de synthèse vocale basées sur l'IA pour la dyslexie : un soutien à l'apprentissage et à l'efficacité en lecture pour les élèves
Les meilleures applications de synthèse vocale basées sur l'IA pour la dyslexie : un soutien à l'apprentissage et à l'efficacité en lecture pour les élèves

Découvrez les meilleures applications de synthèse vocale par IA de 2026, spécialement sélectionnées pour aider les personnes dyslexiques. Notre classement d'experts compare les outils gratuits et payants, en mettant en avant des fonctionnalités performantes qui améliorent l'efficacité de la lecture et l'apprentissage. Découvrez des solutions révolutionnaires à ne pas manquer pour libérer le potentiel des élèves. Commencez votre parcours sur XIX.AI.

10 outils
xix.ai
Création de bande dessinée Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie
Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie

Découvrez les meilleurs générateurs IA de mangas shonen de 2026 sur XIX.AI. Notre sélection triée sur le volet comprend des outils performants pour créer des séquences d'action à couper le souffle et des effets d'énergie dynamiques. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez dès aujourd'hui à créer des mangas épiques !

15 outils
xix.ai
Entreprise Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise
Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise

Les meilleurs outils de gestion des dépenses basés sur l'IA en 2026 : les outils les mieux notés pour numériser vos reçus et classer automatiquement les dépenses de votre entreprise. Découvrez des solutions puissantes et révolutionnaires pour une gestion des dépenses sans effort, un suivi financier précis et une conformité simplifiée. Notre comparatif, mis à jour chaque semaine, qui oppose les options gratuites aux options payantes, vous aide à trouver la solution qui vous convient le mieux. Tirez pleinement parti de l'IA grâce aux recommandations d'experts de XIX.AI.

10 outils
xix.ai
Entreprise Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats
Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils
xix.ai
Productivité Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale
Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils
xix.ai
chatbot Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes
Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils
xix.ai
commentaires (33)
0/500
LeviKing
LeviKing 23 décembre 2025 01:30:38 UTC+01:00

음성 생성 모델 향상이라... 이게 결국 콜센터 직원 대체 같은 데 쓰이면 실업률 걱정이네요. 기술 좋지만 사회적 영향도 고민해야 할 문제 같아요.

FrankMartínez
FrankMartínez 19 août 2025 10:01:39 UTC+02:00

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández
BenHernández 23 juillet 2025 10:50:48 UTC+02:00

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 20 avril 2025 21:57:07 UTC+02:00

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 17 avril 2025 06:50:37 UTC+02:00

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 17 avril 2025 06:38:26 UTC+02:00

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

OR