Openai encore pour libérer l'outil de clonage vocal un an plus tard
Le moteur vocal d'OpenAI : une sortie tant attendue ?
Fin mars dernier, OpenAI a présenté une "avant-première à petite échelle" de son service d'IA, Voice Engine, qui promettait de cloner une voix humaine en utilisant seulement 15 secondes de parole. Un an plus tard, l'outil est toujours en mode aperçu, sans calendrier clair pour un lancement complet — ni même la confirmation qu'il verra un jour le jour.
L'hésitation à déployer Voice Engine à grande échelle pourrait provenir de préoccupations concernant une mauvaise utilisation, ou peut-être d'une tentative d'éviter un examen réglementaire. OpenAI a été critiqué par le passé pour avoir privilégié des produits spectaculaires au détriment de la sécurité et pour s'être précipité sur le marché avant ses concurrents.
Un porte-parole d'OpenAI a déclaré à TechCrunch que l'entreprise teste toujours Voice Engine avec un groupe restreint de "partenaires de confiance". "Nous apprenons de la manière dont nos partenaires utilisent la technologie pour améliorer l'utilité et la sécurité du modèle", a expliqué le porte-parole. "Il a été excitant de voir ses applications, allant de la thérapie vocale et l'apprentissage des langues au support client, aux personnages de jeux vidéo et aux avatars IA."
Voice Engine : le parcours jusqu'à présent
Voice Engine, qui alimente les voix dans l'API de conversion de texte en parole d'OpenAI et le mode vocal de ChatGPT, crée une parole au son remarquablement naturel qui imite étroitement le locuteur original. Il convertit le texte en parole, limité uniquement par certaines lignes directrices de contenu. Cependant, le déploiement a été entravé par des retards et des dates de sortie changeantes dès le départ.
Dans un billet de blog de juin 2024, OpenAI a détaillé comment le modèle Voice Engine apprend à prédire les sons qu'un locuteur produirait probablement pour un texte donné, en tenant compte de diverses voix, accents et styles de parole. Cela permet au modèle non seulement de générer de la parole à partir de texte, mais aussi de produire des "énoncés parlés" qui reflètent la manière dont différents locuteurs exprimeraient le texte à voix haute.
À l'origine, Voice Engine, alors appelé Custom Voices, devait rejoindre l'API d'OpenAI le 7 mars 2024, selon un projet de billet de blog vu par TechCrunch. Le plan était d'offrir initialement un accès à jusqu'à 100 "développeurs de confiance", en privilégiant ceux qui développaient des applications à bénéfices sociaux ou démontrant une utilisation innovante et responsable de la technologie. OpenAI avait déjà déposé une marque pour le service et fixé les prix à 15 $ par million de caractères pour les voix "standard" et 30 $ par million de caractères pour les voix de "qualité HD".
Mais à la dernière minute, l'annonce a été reportée. Quelques semaines plus tard, OpenAI a dévoilé Voice Engine sans option d'inscription, limitant l'accès à un petit groupe de développeurs avec lesquels ils travaillaient depuis fin 2023.
"Nous espérons entamer un dialogue sur le déploiement responsable des voix synthétiques et sur la manière dont la société peut s'adapter à ces nouvelles capacités", a déclaré OpenAI dans le billet d'annonce de fin mars 2024. "Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur si et comment déployer cette technologie à grande échelle."
Un long chemin de développement
Voice Engine est en développement depuis 2022, OpenAI mettant en avant son potentiel — et ses risques — auprès des décideurs politiques mondiaux à l'été 2023. Aujourd'hui, plusieurs partenaires ont accès à Voice Engine, y compris la startup Livox, qui vise à aider les personnes handicapées à communiquer plus naturellement. Cependant, le PDG de Livox, Carlos Pereira, a noté qu'ils ne pouvaient pas intégrer Voice Engine dans leurs produits car il nécessite une connexion internet, ce que beaucoup de leurs clients n'ont pas. "La qualité de la voix et la capacité des voix à parler dans différentes langues sont uniques — en particulier pour nos clients handicapés", a déclaré Pereira à TechCrunch par e-mail. "C'est vraiment l'outil le plus impressionnant et facile à utiliser pour créer des voix que j'ai vu... Nous espérons qu'OpenAI développe une version hors ligne bientôt."
Pereira n'a reçu aucune indication d'OpenAI concernant une date de lancement potentielle ou des plans pour facturer le service, et jusqu'à présent, Livox n'a pas eu à payer pour son utilisation.
Dans un billet de juin 2024, OpenAI a suggéré qu'une des raisons du retard de Voice Engine était le potentiel d'abus pendant le cycle électoral américain. L'entreprise a mis en place des mesures de sécurité, y compris un filigrane pour retracer l'origine de l'audio généré. Les développeurs doivent obtenir un "consentement explicite" du locuteur original et faire des "divulgations claires" à leur public indiquant que les voix sont générées par IA. Cependant, OpenAI n'a pas détaillé comment ces politiques seront appliquées à grande échelle, ce qui pourrait représenter un défi important.
OpenAI a également laissé entendre qu'elle travaille à la création d'une "expérience d'authentification vocale" pour vérifier les locuteurs et une liste de "voix interdites" pour empêcher la création de voix ressemblant à des figures prominentes. Ce sont des projets ambitieux, et tout faux pas pourrait encore nuire à la réputation d'OpenAI en matière d'initiatives de sécurité.
Un filtrage efficace et une vérification d'identité deviennent essentiels pour libérer de manière responsable la technologie de clonage vocal. Le clonage vocal par IA a été la troisième escroquerie à la croissance la plus rapide en 2024, entraînant des fraudes et contournant les contrôles de sécurité bancaire alors que les lois sur la confidentialité et le droit d'auteur peinent à suivre. Les acteurs malveillants ont utilisé le clonage vocal pour créer des deepfakes de célébrités et de politiciens, qui se sont rapidement répandus sur les réseaux sociaux.
OpenAI pourrait lancer Voice Engine la semaine prochaine, ou cela pourrait ne jamais arriver. L'entreprise a mentionné envisager de maintenir le service à petite échelle. Mais une chose est certaine : que ce soit pour des raisons d'image, de sécurité, ou les deux, l'avant-première limitée de Voice Engine est devenue l'une des plus longues de l'histoire d'OpenAI.
Article connexe
Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas
Oracle prévoit d'investir environ 40 milliards de dollars dans des puces Nvidia pour alimenter un nouveau centre de données majeur au Texas, développé par OpenAI, selon le Financial Times. Cette trans
SoftBank Acquiert une Usine Sharp de 676M$ pour un Centre de Données IA au Japon
SoftBank progresse vers son objectif d'établir un centre majeur d'IA au Japon, à la fois indépendamment et par des partenariats comme avec OpenAI. Le géant technologique a confirmé vendredi qu'il inve
Adobe et Figma intègrent le modèle avancé de génération d'images d'OpenAI
La génération d'images améliorée d'OpenAI dans ChatGPT a entraîné une augmentation des utilisateurs, grâce à sa capacité à produire des visuels de style Studio Ghibli et des designs uniques, et s'éten
commentaires (11)
0/200
FredLewis
2 août 2025 17:07:14 UTC+02:00
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
0
PaulBrown
23 avril 2025 11:20:58 UTC+02:00
1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。
0
TimothyMiller
23 avril 2025 08:50:47 UTC+02:00
等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。
0
SamuelRoberts
23 avril 2025 03:46:04 UTC+02:00
Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.
0
WillMitchell
22 avril 2025 08:48:14 UTC+02:00
Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.
0
JamesWilliams
22 avril 2025 04:55:40 UTC+02:00
A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.
0
Le moteur vocal d'OpenAI : une sortie tant attendue ?
Fin mars dernier, OpenAI a présenté une "avant-première à petite échelle" de son service d'IA, Voice Engine, qui promettait de cloner une voix humaine en utilisant seulement 15 secondes de parole. Un an plus tard, l'outil est toujours en mode aperçu, sans calendrier clair pour un lancement complet — ni même la confirmation qu'il verra un jour le jour.
L'hésitation à déployer Voice Engine à grande échelle pourrait provenir de préoccupations concernant une mauvaise utilisation, ou peut-être d'une tentative d'éviter un examen réglementaire. OpenAI a été critiqué par le passé pour avoir privilégié des produits spectaculaires au détriment de la sécurité et pour s'être précipité sur le marché avant ses concurrents.
Un porte-parole d'OpenAI a déclaré à TechCrunch que l'entreprise teste toujours Voice Engine avec un groupe restreint de "partenaires de confiance". "Nous apprenons de la manière dont nos partenaires utilisent la technologie pour améliorer l'utilité et la sécurité du modèle", a expliqué le porte-parole. "Il a été excitant de voir ses applications, allant de la thérapie vocale et l'apprentissage des langues au support client, aux personnages de jeux vidéo et aux avatars IA."
Voice Engine : le parcours jusqu'à présent
Voice Engine, qui alimente les voix dans l'API de conversion de texte en parole d'OpenAI et le mode vocal de ChatGPT, crée une parole au son remarquablement naturel qui imite étroitement le locuteur original. Il convertit le texte en parole, limité uniquement par certaines lignes directrices de contenu. Cependant, le déploiement a été entravé par des retards et des dates de sortie changeantes dès le départ.
Dans un billet de blog de juin 2024, OpenAI a détaillé comment le modèle Voice Engine apprend à prédire les sons qu'un locuteur produirait probablement pour un texte donné, en tenant compte de diverses voix, accents et styles de parole. Cela permet au modèle non seulement de générer de la parole à partir de texte, mais aussi de produire des "énoncés parlés" qui reflètent la manière dont différents locuteurs exprimeraient le texte à voix haute.
À l'origine, Voice Engine, alors appelé Custom Voices, devait rejoindre l'API d'OpenAI le 7 mars 2024, selon un projet de billet de blog vu par TechCrunch. Le plan était d'offrir initialement un accès à jusqu'à 100 "développeurs de confiance", en privilégiant ceux qui développaient des applications à bénéfices sociaux ou démontrant une utilisation innovante et responsable de la technologie. OpenAI avait déjà déposé une marque pour le service et fixé les prix à 15 $ par million de caractères pour les voix "standard" et 30 $ par million de caractères pour les voix de "qualité HD".
Mais à la dernière minute, l'annonce a été reportée. Quelques semaines plus tard, OpenAI a dévoilé Voice Engine sans option d'inscription, limitant l'accès à un petit groupe de développeurs avec lesquels ils travaillaient depuis fin 2023.
"Nous espérons entamer un dialogue sur le déploiement responsable des voix synthétiques et sur la manière dont la société peut s'adapter à ces nouvelles capacités", a déclaré OpenAI dans le billet d'annonce de fin mars 2024. "Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur si et comment déployer cette technologie à grande échelle."
Un long chemin de développement
Voice Engine est en développement depuis 2022, OpenAI mettant en avant son potentiel — et ses risques — auprès des décideurs politiques mondiaux à l'été 2023. Aujourd'hui, plusieurs partenaires ont accès à Voice Engine, y compris la startup Livox, qui vise à aider les personnes handicapées à communiquer plus naturellement. Cependant, le PDG de Livox, Carlos Pereira, a noté qu'ils ne pouvaient pas intégrer Voice Engine dans leurs produits car il nécessite une connexion internet, ce que beaucoup de leurs clients n'ont pas. "La qualité de la voix et la capacité des voix à parler dans différentes langues sont uniques — en particulier pour nos clients handicapés", a déclaré Pereira à TechCrunch par e-mail. "C'est vraiment l'outil le plus impressionnant et facile à utiliser pour créer des voix que j'ai vu... Nous espérons qu'OpenAI développe une version hors ligne bientôt."
Pereira n'a reçu aucune indication d'OpenAI concernant une date de lancement potentielle ou des plans pour facturer le service, et jusqu'à présent, Livox n'a pas eu à payer pour son utilisation.
Dans un billet de juin 2024, OpenAI a suggéré qu'une des raisons du retard de Voice Engine était le potentiel d'abus pendant le cycle électoral américain. L'entreprise a mis en place des mesures de sécurité, y compris un filigrane pour retracer l'origine de l'audio généré. Les développeurs doivent obtenir un "consentement explicite" du locuteur original et faire des "divulgations claires" à leur public indiquant que les voix sont générées par IA. Cependant, OpenAI n'a pas détaillé comment ces politiques seront appliquées à grande échelle, ce qui pourrait représenter un défi important.
OpenAI a également laissé entendre qu'elle travaille à la création d'une "expérience d'authentification vocale" pour vérifier les locuteurs et une liste de "voix interdites" pour empêcher la création de voix ressemblant à des figures prominentes. Ce sont des projets ambitieux, et tout faux pas pourrait encore nuire à la réputation d'OpenAI en matière d'initiatives de sécurité.
Un filtrage efficace et une vérification d'identité deviennent essentiels pour libérer de manière responsable la technologie de clonage vocal. Le clonage vocal par IA a été la troisième escroquerie à la croissance la plus rapide en 2024, entraînant des fraudes et contournant les contrôles de sécurité bancaire alors que les lois sur la confidentialité et le droit d'auteur peinent à suivre. Les acteurs malveillants ont utilisé le clonage vocal pour créer des deepfakes de célébrités et de politiciens, qui se sont rapidement répandus sur les réseaux sociaux.
OpenAI pourrait lancer Voice Engine la semaine prochaine, ou cela pourrait ne jamais arriver. L'entreprise a mentionné envisager de maintenir le service à petite échelle. Mais une chose est certaine : que ce soit pour des raisons d'image, de sécurité, ou les deux, l'avant-première limitée de Voice Engine est devenue l'une des plus longues de l'histoire d'OpenAI.


Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬




1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。




等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。




Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.




Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.




A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.












