OpenAI améliore ses modèles de transcription et de génération de voix
OpenAI déploie de nouveaux modèles d'IA pour la transcription et la génération de voix via son API, promettant des améliorations significatives par rapport à leurs versions antérieures. Ces mises à jour s'inscrivent dans la vision plus large d'OpenAI, dite "agentique", qui se concentre sur la création de systèmes autonomes capables d'exécuter des tâches de manière indépendante pour les utilisateurs. Bien que le terme "agent" puisse faire l'objet de débats, le responsable des produits d'OpenAI, Olivier Godement, le considère comme un chatbot capable d'interagir avec les clients d'une entreprise.
"Nous verrons de plus en plus d'agents émerger dans les mois à venir," a partagé Godement avec TechCrunch lors d'un briefing. "L'objectif principal est d'aider les clients et les développeurs à utiliser des agents utiles, accessibles et précis."
Le dernier modèle de synthèse vocale d'OpenAI, nommé "gpt-4o-mini-tts," vise non seulement à produire une parole plus réaliste et nuancée, mais il est également plus adaptable que ses prédécesseurs. Les développeurs peuvent désormais guider le modèle à l'aide de commandes en langage naturel, telles que "parle comme un savant fou" ou "utilise une voix sereine, comme un enseignant de pleine conscience." Ce niveau de contrôle permet une expérience vocale plus personnalisée.
Voici un exemple d'une voix usée de style "true crime" :
Et voici un exemple d'une voix féminine "professionnelle" :
Jeff Harris, membre de l'équipe produit d'OpenAI, a souligné à TechCrunch que l'objectif est de permettre aux développeurs de personnaliser à la fois l'expérience vocale et le contexte. "Dans divers scénarios, vous ne voulez pas d'une voix monotone," a expliqué Harris. "Par exemple, dans un contexte de support client où la voix doit sembler désolée pour une erreur, vous pouvez insuffler cette émotion dans la voix. Nous croyons fermement que les développeurs et les utilisateurs veulent contrôler non seulement le contenu, mais aussi la manière de parler."
En ce qui concerne les nouvelles offres de reconnaissance vocale d'OpenAI, "gpt-4o-transcribe" et "gpt-4o-mini-transcribe," ces modèles sont destinés à remplacer l'ancien modèle de transcription Whisper. Entraînés sur un large éventail de données audio de haute qualité, ils prétendent mieux gérer les discours accentués et variés, même dans des environnements bruyants. De plus, ces modèles sont moins susceptibles de produire des "hallucinations," un problème où Whisper inventait parfois des mots ou des passages entiers, ajoutant des inexactitudes comme des commentaires raciaux ou des traitements médicaux fictifs aux transcriptions.
"Ces modèles montrent une amélioration significative par rapport à Whisper à cet égard," a noté Harris. "Garantir la précision du modèle est crucial pour une expérience vocale fiable, et par précision, nous entendons que les modèles capturent correctement les mots prononcés sans ajouter de contenu non exprimé."
Cependant, les performances peuvent varier selon les langues. Les benchmarks internes d'OpenAI indiquent que gpt-4o-transcribe, le plus précis des deux, a un "taux d'erreur de mots" approchant 30 % pour les langues indiennes et dravidiennes comme le tamoul, le télougou, le malayalam et le kannada. Cela suggère qu'environ trois mots sur dix pourraient différer d'une transcription humaine dans ces langues.

Les résultats des benchmarks de transcription d'OpenAI. Crédits image : OpenAI Contrairement à leur pratique habituelle, OpenAI ne rendra pas ces nouveaux modèles de transcription librement accessibles. Historiquement, ils ont publié de nouvelles versions de Whisper sous une licence MIT pour un usage commercial. Harris a souligné que gpt-4o-transcribe et gpt-4o-mini-transcribe sont значительно plus grands que Whisper, ce qui les rend inadaptés à une publication ouverte.
"Ces modèles sont trop volumineux pour fonctionner sur un ordinateur portable classique comme Whisper le pouvait," a ajouté Harris. "Lorsque nous publions des modèles ouvertement, nous voulons le faire de manière réfléchie, en nous assurant qu'ils sont adaptés à des besoins spécifiques. Nous voyons les appareils des utilisateurs finaux comme un domaine privilégié pour les modèles open-source."
Mis à jour le 20 mars 2025, 11:54 PT pour clarifier le langage autour du taux d'erreur de mots et mettre à jour le graphique des résultats de benchmark avec une version plus récente.
Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
commentaires (33)
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸
OpenAI déploie de nouveaux modèles d'IA pour la transcription et la génération de voix via son API, promettant des améliorations significatives par rapport à leurs versions antérieures. Ces mises à jour s'inscrivent dans la vision plus large d'OpenAI, dite "agentique", qui se concentre sur la création de systèmes autonomes capables d'exécuter des tâches de manière indépendante pour les utilisateurs. Bien que le terme "agent" puisse faire l'objet de débats, le responsable des produits d'OpenAI, Olivier Godement, le considère comme un chatbot capable d'interagir avec les clients d'une entreprise.
"Nous verrons de plus en plus d'agents émerger dans les mois à venir," a partagé Godement avec TechCrunch lors d'un briefing. "L'objectif principal est d'aider les clients et les développeurs à utiliser des agents utiles, accessibles et précis."
Le dernier modèle de synthèse vocale d'OpenAI, nommé "gpt-4o-mini-tts," vise non seulement à produire une parole plus réaliste et nuancée, mais il est également plus adaptable que ses prédécesseurs. Les développeurs peuvent désormais guider le modèle à l'aide de commandes en langage naturel, telles que "parle comme un savant fou" ou "utilise une voix sereine, comme un enseignant de pleine conscience." Ce niveau de contrôle permet une expérience vocale plus personnalisée.
Voici un exemple d'une voix usée de style "true crime" :
Et voici un exemple d'une voix féminine "professionnelle" :
Jeff Harris, membre de l'équipe produit d'OpenAI, a souligné à TechCrunch que l'objectif est de permettre aux développeurs de personnaliser à la fois l'expérience vocale et le contexte. "Dans divers scénarios, vous ne voulez pas d'une voix monotone," a expliqué Harris. "Par exemple, dans un contexte de support client où la voix doit sembler désolée pour une erreur, vous pouvez insuffler cette émotion dans la voix. Nous croyons fermement que les développeurs et les utilisateurs veulent contrôler non seulement le contenu, mais aussi la manière de parler."
En ce qui concerne les nouvelles offres de reconnaissance vocale d'OpenAI, "gpt-4o-transcribe" et "gpt-4o-mini-transcribe," ces modèles sont destinés à remplacer l'ancien modèle de transcription Whisper. Entraînés sur un large éventail de données audio de haute qualité, ils prétendent mieux gérer les discours accentués et variés, même dans des environnements bruyants. De plus, ces modèles sont moins susceptibles de produire des "hallucinations," un problème où Whisper inventait parfois des mots ou des passages entiers, ajoutant des inexactitudes comme des commentaires raciaux ou des traitements médicaux fictifs aux transcriptions.
"Ces modèles montrent une amélioration significative par rapport à Whisper à cet égard," a noté Harris. "Garantir la précision du modèle est crucial pour une expérience vocale fiable, et par précision, nous entendons que les modèles capturent correctement les mots prononcés sans ajouter de contenu non exprimé."
Cependant, les performances peuvent varier selon les langues. Les benchmarks internes d'OpenAI indiquent que gpt-4o-transcribe, le plus précis des deux, a un "taux d'erreur de mots" approchant 30 % pour les langues indiennes et dravidiennes comme le tamoul, le télougou, le malayalam et le kannada. Cela suggère qu'environ trois mots sur dix pourraient différer d'une transcription humaine dans ces langues.

Contrairement à leur pratique habituelle, OpenAI ne rendra pas ces nouveaux modèles de transcription librement accessibles. Historiquement, ils ont publié de nouvelles versions de Whisper sous une licence MIT pour un usage commercial. Harris a souligné que gpt-4o-transcribe et gpt-4o-mini-transcribe sont значительно plus grands que Whisper, ce qui les rend inadaptés à une publication ouverte.
"Ces modèles sont trop volumineux pour fonctionner sur un ordinateur portable classique comme Whisper le pouvait," a ajouté Harris. "Lorsque nous publions des modèles ouvertement, nous voulons le faire de manière réfléchie, en nous assurant qu'ils sont adaptés à des besoins spécifiques. Nous voyons les appareils des utilisateurs finaux comme un domaine privilégié pour les modèles open-source."
Mis à jour le 20 mars 2025, 11:54 PT pour clarifier le langage autour du taux d'erreur de mots et mettre à jour le graphique des résultats de benchmark avec une version plus récente.
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸





Maison






