Openai encore pour libérer l'outil de clonage vocal un an plus tard

Maison

Nouvelles

21 avril 2025

AnthonyHernández

# openai

Le moteur vocal d'OpenAI : une sortie tant attendue ?

Fin mars dernier, OpenAI a présenté une "avant-première à petite échelle" de son service d'IA, Voice Engine, qui promettait de cloner une voix humaine en utilisant seulement 15 secondes de parole. Un an plus tard, l'outil est toujours en mode aperçu, sans calendrier clair pour un lancement complet — ni même la confirmation qu'il verra un jour le jour.

L'hésitation à déployer Voice Engine à grande échelle pourrait provenir de préoccupations concernant une mauvaise utilisation, ou peut-être d'une tentative d'éviter un examen réglementaire. OpenAI a été critiqué par le passé pour avoir privilégié des produits spectaculaires au détriment de la sécurité et pour s'être précipité sur le marché avant ses concurrents.

Un porte-parole d'OpenAI a déclaré à TechCrunch que l'entreprise teste toujours Voice Engine avec un groupe restreint de "partenaires de confiance". "Nous apprenons de la manière dont nos partenaires utilisent la technologie pour améliorer l'utilité et la sécurité du modèle", a expliqué le porte-parole. "Il a été excitant de voir ses applications, allant de la thérapie vocale et l'apprentissage des langues au support client, aux personnages de jeux vidéo et aux avatars IA."

Voice Engine : le parcours jusqu'à présent

Voice Engine, qui alimente les voix dans l'API de conversion de texte en parole d'OpenAI et le mode vocal de ChatGPT, crée une parole au son remarquablement naturel qui imite étroitement le locuteur original. Il convertit le texte en parole, limité uniquement par certaines lignes directrices de contenu. Cependant, le déploiement a été entravé par des retards et des dates de sortie changeantes dès le départ.

Dans un billet de blog de juin 2024, OpenAI a détaillé comment le modèle Voice Engine apprend à prédire les sons qu'un locuteur produirait probablement pour un texte donné, en tenant compte de diverses voix, accents et styles de parole. Cela permet au modèle non seulement de générer de la parole à partir de texte, mais aussi de produire des "énoncés parlés" qui reflètent la manière dont différents locuteurs exprimeraient le texte à voix haute.

À l'origine, Voice Engine, alors appelé Custom Voices, devait rejoindre l'API d'OpenAI le 7 mars 2024, selon un projet de billet de blog vu par TechCrunch. Le plan était d'offrir initialement un accès à jusqu'à 100 "développeurs de confiance", en privilégiant ceux qui développaient des applications à bénéfices sociaux ou démontrant une utilisation innovante et responsable de la technologie. OpenAI avait déjà déposé une marque pour le service et fixé les prix à 15 $ par million de caractères pour les voix "standard" et 30 $ par million de caractères pour les voix de "qualité HD".

Mais à la dernière minute, l'annonce a été reportée. Quelques semaines plus tard, OpenAI a dévoilé Voice Engine sans option d'inscription, limitant l'accès à un petit groupe de développeurs avec lesquels ils travaillaient depuis fin 2023.

"Nous espérons entamer un dialogue sur le déploiement responsable des voix synthétiques et sur la manière dont la société peut s'adapter à ces nouvelles capacités", a déclaré OpenAI dans le billet d'annonce de fin mars 2024. "Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur si et comment déployer cette technologie à grande échelle."

Un long chemin de développement

Voice Engine est en développement depuis 2022, OpenAI mettant en avant son potentiel — et ses risques — auprès des décideurs politiques mondiaux à l'été 2023. Aujourd'hui, plusieurs partenaires ont accès à Voice Engine, y compris la startup Livox, qui vise à aider les personnes handicapées à communiquer plus naturellement. Cependant, le PDG de Livox, Carlos Pereira, a noté qu'ils ne pouvaient pas intégrer Voice Engine dans leurs produits car il nécessite une connexion internet, ce que beaucoup de leurs clients n'ont pas. "La qualité de la voix et la capacité des voix à parler dans différentes langues sont uniques — en particulier pour nos clients handicapés", a déclaré Pereira à TechCrunch par e-mail. "C'est vraiment l'outil le plus impressionnant et facile à utiliser pour créer des voix que j'ai vu... Nous espérons qu'OpenAI développe une version hors ligne bientôt."

Pereira n'a reçu aucune indication d'OpenAI concernant une date de lancement potentielle ou des plans pour facturer le service, et jusqu'à présent, Livox n'a pas eu à payer pour son utilisation.

Dans un billet de juin 2024, OpenAI a suggéré qu'une des raisons du retard de Voice Engine était le potentiel d'abus pendant le cycle électoral américain. L'entreprise a mis en place des mesures de sécurité, y compris un filigrane pour retracer l'origine de l'audio généré. Les développeurs doivent obtenir un "consentement explicite" du locuteur original et faire des "divulgations claires" à leur public indiquant que les voix sont générées par IA. Cependant, OpenAI n'a pas détaillé comment ces politiques seront appliquées à grande échelle, ce qui pourrait représenter un défi important.

OpenAI a également laissé entendre qu'elle travaille à la création d'une "expérience d'authentification vocale" pour vérifier les locuteurs et une liste de "voix interdites" pour empêcher la création de voix ressemblant à des figures prominentes. Ce sont des projets ambitieux, et tout faux pas pourrait encore nuire à la réputation d'OpenAI en matière d'initiatives de sécurité.

Un filtrage efficace et une vérification d'identité deviennent essentiels pour libérer de manière responsable la technologie de clonage vocal. Le clonage vocal par IA a été la troisième escroquerie à la croissance la plus rapide en 2024, entraînant des fraudes et contournant les contrôles de sécurité bancaire alors que les lois sur la confidentialité et le droit d'auteur peinent à suivre. Les acteurs malveillants ont utilisé le clonage vocal pour créer des deepfakes de célébrités et de politiciens, qui se sont rapidement répandus sur les réseaux sociaux.

OpenAI pourrait lancer Voice Engine la semaine prochaine, ou cela pourrait ne jamais arriver. L'entreprise a mentionné envisager de maintenir le service à petite échelle. Mais une chose est certaine : que ce soit pour des raisons d'image, de sécurité, ou les deux, l'avant-première limitée de Voice Engine est devenue l'une des plus longues de l'histoire d'OpenAI.

Article connexe

L'engouement de Nvidia pour l'IA se heurte à la réalité : les marges de 70 % font l'objet d'un examen minutieux dans le cadre des batailles d'inférence La guerre des puces d'IA fait rage à VB Transform 2025Les lignes de combat ont été tracées lors d'une table ronde enflammée à VB Transform 2025, au cours de laquelle des challengers en plein essor se

OpenAI met à jour ChatGPT Pro vers o3, augmentant la valeur de l'abonnement mensuel de 200 $. Cette semaine a été marquée par d'importants développements en matière d'IA de la part de géants de la technologie tels que Microsoft, Google et Anthropic. OpenAI conclut cette vague d'annonces avec s

Un organisme à but non lucratif s'appuie sur des agents d'intelligence artificielle pour stimuler la collecte de fonds à des fins caritatives Alors que les grandes entreprises technologiques promeuvent les "agents" d'IA comme des stimulants de la productivité pour les entreprises, une organisation à but non lucratif démontre leur potentiel

commentaires (11)

0/200

Soumettre

FredLewis

2 août 2025 17:07:14 UTC+02:00

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬