option
Maison Nouvelles Openai encore pour libérer l'outil de clonage vocal un an plus tard

Openai encore pour libérer l'outil de clonage vocal un an plus tard

date de sortie date de sortie 21 avril 2025
Auteur Auteur AnthonyHernández
vues vues 25

Moteur vocal d'Openai: une version tant attendue?

À la fin du mars dernier, Openai a présenté un «aperçu à petite échelle» de son service AI, Voice Engine, qui a promis de cloner la voix d'une personne en utilisant seulement 15 secondes de discours. Avance rapide par an, et l'outil est toujours en mode prévisualisation, sans aucune chronologie claire pour un lancement complet - ni même la confirmation qu'elle verra jamais le jour.

L'hésitation à déployer largement le moteur vocal pourrait provenir des préoccupations concernant une mauvaise utilisation, ou peut-être une tentative de contourner l'examen réglementaire. Openai a fait face à des critiques dans le passé pour hiérarchiser les produits flashy sur la sécurité et pour se précipiter sur le marché devant les concurrents.

Un porte-parole d'OpenAI a déclaré à TechCrunch que la société teste toujours le moteur vocal avec un groupe restreint de «partenaires de confiance». "Nous apprenons de la façon dont nos partenaires utilisent la technologie pour améliorer l'utilité et la sécurité du modèle", a expliqué le porte-parole. "Il a été passionnant de voir ses applications, allant de l'orthophonie et de l'apprentissage des langues au support client, aux personnages de jeux vidéo et aux avatars de l'IA."

Moteur vocal: le voyage jusqu'à présent

Le moteur vocal, qui anime les voix dans l'API de texte vocale d'Openai et le mode vocal de Chatgpt, crée un discours remarquablement naturel qui imite étroitement le haut-parleur d'origine. Il convertit le texte en parole, limité uniquement par certaines directives de contenu. Cependant, le déploiement a été en proie à des retards et à des dates de libération du début.

Dans un article de blog de juin 2024, OpenAI a détaillé comment le modèle de moteur vocal apprend à prédire les sons qu'un haut-parleur ferait probablement un texte donné, en considérant diverses voix, accents et styles de parole. Cela permet au modèle non seulement de générer une parole à partir de texte mais aussi de produire des "énoncés parlés" qui reflètent la façon dont différents haut-parleurs exprimeraient le texte à haute voix.

À l'origine, Voice Engine, alors appelé Custom Voices, a été prêt à rejoindre l'API d'Openai le 7 mars 2024, selon un projet de blog vu par TechCrunch. Le plan était d'offrir initialement l'accès à jusqu'à 100 «développeurs de confiance», en priorisant ceux qui développent des applications ayant des avantages sociaux ou en montrant une utilisation innovante et responsable de la technologie. Openai avait déjà marqué le service et fixé des prix à 15 $ par million de caractères pour des voix "standard" et 30 $ par million de personnages pour des voix "HD Quality".

Mais au dernier moment, l'annonce a été retardée. Quelques semaines plus tard, OpenAI a dévoilé le moteur vocal sans option d'inscription, limitant l'accès à un petit groupe de développeurs avec lesquels ils travaillaient depuis fin 2023.

"Nous espérons commencer un dialogue sur le déploiement responsable des voix synthétiques et comment la société peut s'adapter à ces nouvelles capacités", a déclaré Openai dans la fin du billet de blog d'annonce de mars 2024. "Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée sur la question de savoir si et comment déployer cette technologie à grande échelle."

Une longue route de développement

Voice Engine est en développement depuis 2022, avec OpenAI présentant son potentiel - et les risques - aux décideurs mondiaux à l'été 2023. Aujourd'hui, plusieurs partenaires ont accès au moteur vocal, notamment Startup Livox, qui vise à aider les personnes handicapées à communiquer plus naturellement. Cependant, le PDG de Livox, Carlos Pereira, a noté qu'ils ne pouvaient pas intégrer le moteur vocal dans leurs produits car il nécessite une connexion Internet, ce qui manque à beaucoup de leurs clients. "La qualité de la voix et la possibilité de faire parler les voix dans différentes langues sont uniques, en particulier pour nos clients handicapés", a déclaré Pereira à TechCrunch par e-mail. "C'est vraiment l'outil le plus impressionnant et le plus facile à utiliser pour créer des voix que j'ai vues ... nous espérons qu'Openai développera bientôt une version hors ligne."

Pereira n'a reçu aucune indication d'OpenAI sur une date de lancement potentielle ou prévoit de facturer le service, et jusqu'à présent, Livox n'a pas eu à payer son utilisation.

Dans un poste de juin 2024, Openai a suggéré qu'une des raisons de retarder le moteur vocal était le potentiel d'abus pendant le cycle électoral américain. La société a mis en œuvre des mesures de sécurité, notamment le filigrane pour retracer l'origine de l'audio généré. Les développeurs doivent obtenir un "consentement explicite" de l'orateur d'origine et faire des "divulgations claires" à leur public que les voix sont générées par l'IA. Cependant, OpenAI n'a pas détaillé comment ces politiques seront appliquées à grande échelle, ce qui pourrait être un défi important.

Openai a également laissé entendre dans la construction d'une "expérience d'authentification vocale" pour vérifier les haut-parleurs et une liste "No-Go" pour empêcher la création de voix ressemblant à des chiffres importants. Ce sont des projets ambitieux, et tout faux pas pourrait nuire à la réputation d'Openai concernant les initiatives de sécurité.

Le filtrage efficace et la vérification d'identification deviennent essentiels pour libérer de manière responsable la technologie de clonage vocale. Le clonage de la voix de l'AI était la troisième arnaque à la croissance la plus rapide de 2024, ce qui a entraîné des fraudes et de contourner les chèques de sécurité bancaire alors que les lois sur la confidentialité et le droit d'auteur ont du mal à suivre le rythme. Les acteurs malveillants ont utilisé le clonage vocal pour créer des fesses profondes de célébrités et de politiciens, qui se sont répandus rapidement sur les réseaux sociaux.

Openai pourrait libérer le moteur vocal la semaine prochaine, ou cela pourrait ne jamais arriver. L'entreprise a mentionné en tenant compte de la maintenance du service à portée faible. Mais une chose est certaine: que ce soit pour l'optique, la sécurité ou les deux, l'aperçu limité de Voice Engine est devenu l'un des plus longs de l'histoire d'Openai.

Article connexe
Google搜索引入了複雜的多部分查詢的“ AI模式” Google搜索引入了複雜的多部分查詢的“ AI模式” Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話 Openai增強了Chatgpt,以回憶以前的對話 Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
commentaires (5)
0/200
StephenScott
StephenScott 21 avril 2025 23:54:47 UTC

It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞

WillieHernández
WillieHernández 21 avril 2025 23:54:47 UTC

オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞

BillyWilson
BillyWilson 21 avril 2025 23:54:47 UTC

오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞

KennethKing
KennethKing 21 avril 2025 23:54:47 UTC

Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞

JeffreyThomas
JeffreyThomas 21 avril 2025 23:54:47 UTC

¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞

Retour en haut
OR