OpenAI améliore ses modèles de transcription et de génération de voix
OpenAI déploie de nouveaux modèles d'IA pour la transcription et la génération de voix via son API, promettant des améliorations significatives par rapport à leurs versions antérieures. Ces mises à jour s'inscrivent dans la vision plus large d'OpenAI, dite "agentique", qui se concentre sur la création de systèmes autonomes capables d'exécuter des tâches de manière indépendante pour les utilisateurs. Bien que le terme "agent" puisse faire l'objet de débats, le responsable des produits d'OpenAI, Olivier Godement, le considère comme un chatbot capable d'interagir avec les clients d'une entreprise.
"Nous verrons de plus en plus d'agents émerger dans les mois à venir," a partagé Godement avec TechCrunch lors d'un briefing. "L'objectif principal est d'aider les clients et les développeurs à utiliser des agents utiles, accessibles et précis."
Le dernier modèle de synthèse vocale d'OpenAI, nommé "gpt-4o-mini-tts," vise non seulement à produire une parole plus réaliste et nuancée, mais il est également plus adaptable que ses prédécesseurs. Les développeurs peuvent désormais guider le modèle à l'aide de commandes en langage naturel, telles que "parle comme un savant fou" ou "utilise une voix sereine, comme un enseignant de pleine conscience." Ce niveau de contrôle permet une expérience vocale plus personnalisée.
Voici un exemple d'une voix usée de style "true crime" :
Et voici un exemple d'une voix féminine "professionnelle" :
Jeff Harris, membre de l'équipe produit d'OpenAI, a souligné à TechCrunch que l'objectif est de permettre aux développeurs de personnaliser à la fois l'expérience vocale et le contexte. "Dans divers scénarios, vous ne voulez pas d'une voix monotone," a expliqué Harris. "Par exemple, dans un contexte de support client où la voix doit sembler désolée pour une erreur, vous pouvez insuffler cette émotion dans la voix. Nous croyons fermement que les développeurs et les utilisateurs veulent contrôler non seulement le contenu, mais aussi la manière de parler."
En ce qui concerne les nouvelles offres de reconnaissance vocale d'OpenAI, "gpt-4o-transcribe" et "gpt-4o-mini-transcribe," ces modèles sont destinés à remplacer l'ancien modèle de transcription Whisper. Entraînés sur un large éventail de données audio de haute qualité, ils prétendent mieux gérer les discours accentués et variés, même dans des environnements bruyants. De plus, ces modèles sont moins susceptibles de produire des "hallucinations," un problème où Whisper inventait parfois des mots ou des passages entiers, ajoutant des inexactitudes comme des commentaires raciaux ou des traitements médicaux fictifs aux transcriptions.
"Ces modèles montrent une amélioration significative par rapport à Whisper à cet égard," a noté Harris. "Garantir la précision du modèle est crucial pour une expérience vocale fiable, et par précision, nous entendons que les modèles capturent correctement les mots prononcés sans ajouter de contenu non exprimé."
Cependant, les performances peuvent varier selon les langues. Les benchmarks internes d'OpenAI indiquent que gpt-4o-transcribe, le plus précis des deux, a un "taux d'erreur de mots" approchant 30 % pour les langues indiennes et dravidiennes comme le tamoul, le télougou, le malayalam et le kannada. Cela suggère qu'environ trois mots sur dix pourraient différer d'une transcription humaine dans ces langues.

Les résultats des benchmarks de transcription d'OpenAI. Crédits image : OpenAI Contrairement à leur pratique habituelle, OpenAI ne rendra pas ces nouveaux modèles de transcription librement accessibles. Historiquement, ils ont publié de nouvelles versions de Whisper sous une licence MIT pour un usage commercial. Harris a souligné que gpt-4o-transcribe et gpt-4o-mini-transcribe sont значительно plus grands que Whisper, ce qui les rend inadaptés à une publication ouverte.
"Ces modèles sont trop volumineux pour fonctionner sur un ordinateur portable classique comme Whisper le pouvait," a ajouté Harris. "Lorsque nous publions des modèles ouvertement, nous voulons le faire de manière réfléchie, en nous assurant qu'ils sont adaptés à des besoins spécifiques. Nous voyons les appareils des utilisateurs finaux comme un domaine privilégié pour les modèles open-source."
Mis à jour le 20 mars 2025, 11:54 PT pour clarifier le langage autour du taux d'erreur de mots et mettre à jour le graphique des résultats de benchmark avec une version plus récente.
Article connexe
Ancien ingénieur d'OpenAI partage des idées sur la culture d'entreprise et la croissance rapide
Il y a trois semaines, Calvin French-Owen, un ingénieur qui a contribué à un produit clé d'OpenAI, a quitté l'entreprise.Il a récemment partagé un article de blog captivant détaillant son année chez O
Google dévoile les modèles AI Gemini 2.5 prêts pour la production pour rivaliser avec OpenAI sur le marché des entreprises
Google a intensifié sa stratégie AI lundi, lançant ses modèles avancés Gemini 2.5 pour une utilisation en entreprise et introduisant une variante économique pour concurrencer sur le prix et la perform
Meta Offre des Salaires Élevés pour les Talents en IA, Dément les Bonus de Signature de 100M$
Meta attire des chercheurs en IA vers son nouveau laboratoire de superintelligence avec des packages de rémunération de plusieurs millions de dollars. Cependant, les allégations de "bonus de signature
commentaires (31)
0/200
BenHernández
23 juillet 2025 10:50:48 UTC+02:00
Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔
0
GeorgeTaylor
20 avril 2025 21:57:07 UTC+02:00
Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸
0
GregoryAllen
17 avril 2025 06:50:37 UTC+02:00
OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸
0
StevenAllen
17 avril 2025 06:38:26 UTC+02:00
OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸
0
NicholasClark
16 avril 2025 07:54:41 UTC+02:00
OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸
0
SamuelRoberts
15 avril 2025 23:24:36 UTC+02:00
Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊
0
OpenAI déploie de nouveaux modèles d'IA pour la transcription et la génération de voix via son API, promettant des améliorations significatives par rapport à leurs versions antérieures. Ces mises à jour s'inscrivent dans la vision plus large d'OpenAI, dite "agentique", qui se concentre sur la création de systèmes autonomes capables d'exécuter des tâches de manière indépendante pour les utilisateurs. Bien que le terme "agent" puisse faire l'objet de débats, le responsable des produits d'OpenAI, Olivier Godement, le considère comme un chatbot capable d'interagir avec les clients d'une entreprise.
"Nous verrons de plus en plus d'agents émerger dans les mois à venir," a partagé Godement avec TechCrunch lors d'un briefing. "L'objectif principal est d'aider les clients et les développeurs à utiliser des agents utiles, accessibles et précis."
Le dernier modèle de synthèse vocale d'OpenAI, nommé "gpt-4o-mini-tts," vise non seulement à produire une parole plus réaliste et nuancée, mais il est également plus adaptable que ses prédécesseurs. Les développeurs peuvent désormais guider le modèle à l'aide de commandes en langage naturel, telles que "parle comme un savant fou" ou "utilise une voix sereine, comme un enseignant de pleine conscience." Ce niveau de contrôle permet une expérience vocale plus personnalisée.
Voici un exemple d'une voix usée de style "true crime" :
Et voici un exemple d'une voix féminine "professionnelle" :
Jeff Harris, membre de l'équipe produit d'OpenAI, a souligné à TechCrunch que l'objectif est de permettre aux développeurs de personnaliser à la fois l'expérience vocale et le contexte. "Dans divers scénarios, vous ne voulez pas d'une voix monotone," a expliqué Harris. "Par exemple, dans un contexte de support client où la voix doit sembler désolée pour une erreur, vous pouvez insuffler cette émotion dans la voix. Nous croyons fermement que les développeurs et les utilisateurs veulent contrôler non seulement le contenu, mais aussi la manière de parler."
En ce qui concerne les nouvelles offres de reconnaissance vocale d'OpenAI, "gpt-4o-transcribe" et "gpt-4o-mini-transcribe," ces modèles sont destinés à remplacer l'ancien modèle de transcription Whisper. Entraînés sur un large éventail de données audio de haute qualité, ils prétendent mieux gérer les discours accentués et variés, même dans des environnements bruyants. De plus, ces modèles sont moins susceptibles de produire des "hallucinations," un problème où Whisper inventait parfois des mots ou des passages entiers, ajoutant des inexactitudes comme des commentaires raciaux ou des traitements médicaux fictifs aux transcriptions.
"Ces modèles montrent une amélioration significative par rapport à Whisper à cet égard," a noté Harris. "Garantir la précision du modèle est crucial pour une expérience vocale fiable, et par précision, nous entendons que les modèles capturent correctement les mots prononcés sans ajouter de contenu non exprimé."
Cependant, les performances peuvent varier selon les langues. Les benchmarks internes d'OpenAI indiquent que gpt-4o-transcribe, le plus précis des deux, a un "taux d'erreur de mots" approchant 30 % pour les langues indiennes et dravidiennes comme le tamoul, le télougou, le malayalam et le kannada. Cela suggère qu'environ trois mots sur dix pourraient différer d'une transcription humaine dans ces langues.
Contrairement à leur pratique habituelle, OpenAI ne rendra pas ces nouveaux modèles de transcription librement accessibles. Historiquement, ils ont publié de nouvelles versions de Whisper sous une licence MIT pour un usage commercial. Harris a souligné que gpt-4o-transcribe et gpt-4o-mini-transcribe sont значительно plus grands que Whisper, ce qui les rend inadaptés à une publication ouverte.
"Ces modèles sont trop volumineux pour fonctionner sur un ordinateur portable classique comme Whisper le pouvait," a ajouté Harris. "Lorsque nous publions des modèles ouvertement, nous voulons le faire de manière réfléchie, en nous assurant qu'ils sont adaptés à des besoins spécifiques. Nous voyons les appareils des utilisateurs finaux comme un domaine privilégié pour les modèles open-source."
Mis à jour le 20 mars 2025, 11:54 PT pour clarifier le langage autour du taux d'erreur de mots et mettre à jour le graphique des résultats de benchmark avec une version plus récente.




Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔




Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸




OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸




OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸




OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸




Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊












