एक साल बाद वॉयस क्लोनिंग टूल रिलीज़ करने के लिए ओपनई
21 अप्रैल 2025
AnthonyHernández
25
Openai का वॉयस इंजन: एक लंबे समय से प्रतीक्षित रिलीज़?
पिछले मार्च के अंत में, Openai ने अपनी AI सेवा, वॉयस इंजन का एक "छोटे पैमाने पर पूर्वावलोकन" पेश किया, जिसने केवल 15 सेकंड के भाषण का उपयोग करके एक व्यक्ति की आवाज को क्लोन करने का वादा किया था। एक वर्ष में तेजी से आगे बढ़ें, और टूल अभी भी पूर्वावलोकन मोड में है, एक पूर्ण लॉन्च के लिए कोई स्पष्ट समयरेखा नहीं है - या यहां तक कि यह पुष्टि करता है कि यह कभी भी दिन के प्रकाश को देखेगा।
वॉयस इंजन को व्यापक रूप से रोल आउट करने की झिझक दुरुपयोग के बारे में चिंताओं से उपजी हो सकती है, या शायद नियामक जांच को दरकिनार करने का प्रयास। Openai ने सुरक्षा पर आकर्षक उत्पादों को प्राथमिकता देने और प्रतियोगियों के आगे बाजार में भाग लेने के लिए अतीत में आलोचना का सामना किया है।
Openai के एक प्रवक्ता ने TechCrunch को बताया कि कंपनी अभी भी "ट्रस्टेड पार्टनर्स" के एक चुनिंदा समूह के साथ वॉयस इंजन का परीक्षण कर रही है। प्रवक्ता ने बताया, "हम सीख रहे हैं कि हमारे साथी मॉडल की उपयोगिता और सुरक्षा को बढ़ाने के लिए तकनीक का उपयोग कैसे कर रहे हैं।" "यह अपने अनुप्रयोगों को देखने के लिए रोमांचक है, जिसमें स्पीच थेरेपी और भाषा सीखने से लेकर ग्राहक सहायता, वीडियो गेम वर्ण और एआई अवतार शामिल हैं।"
वॉयस इंजन: द जर्नी अब तक
वॉयस इंजन, जो Openai के टेक्स्ट-टू-स्पीच एपीआई और CHATGPT के वॉयस मोड में आवाज़ों को चलाता है, उल्लेखनीय रूप से प्राकृतिक-ध्वनि वाला भाषण बनाता है जो मूल वक्ता की बारीकी से नकल करता है। यह पाठ को भाषण में परिवर्तित करता है, केवल कुछ सामग्री दिशानिर्देशों द्वारा विवश है। हालांकि, रोलआउट को शुरू से ही देरी और रिलीज की तारीखों को स्थानांतरित करने से त्रस्त कर दिया गया है।
जून 2024 के एक ब्लॉग पोस्ट में, ओपनई ने विस्तृत किया कि वॉयस इंजन मॉडल कैसे लगता है कि एक स्पीकर को किसी दिए गए पाठ के लिए लगता है, विभिन्न आवाज़ों, लहजे और बोलने की शैलियों को देखते हुए, ध्वनियों की भविष्यवाणी करना सीखता है। यह मॉडल को न केवल पाठ से भाषण उत्पन्न करने की अनुमति देता है, बल्कि "बोले गए उच्चारण" का उत्पादन करने के लिए यह भी दर्शाता है कि अलग -अलग वक्ताओं को पाठ को जोर से कैसे आवाज़ मिलेगी।
मूल रूप से, वॉयस इंजन, जिसे कस्टम वॉयस कहा जाता है, को TechCrunch द्वारा देखे गए ड्राफ्ट ब्लॉग पोस्ट के अनुसार, 7 मार्च, 2024 को Openai के API में शामिल होने के लिए तैयार किया गया था। योजना शुरू में 100 "विश्वसनीय डेवलपर्स तक पहुंच प्रदान करने" की थी, जो सामाजिक लाभों के साथ उन विकासशील ऐप्स को प्राथमिकता दे रही है या प्रौद्योगिकी के अभिनव और जिम्मेदार उपयोग को दिखाती है। Openai ने पहले से ही सेवा को ट्रेडमार्क किया था और "मानक" आवाज़ों के लिए $ 15 प्रति मिलियन वर्णों और "एचडी गुणवत्ता" आवाज़ों के लिए $ 30 प्रति मिलियन वर्णों के लिए मूल्य निर्धारण निर्धारित किया था।
लेकिन अंतिम क्षण में, घोषणा में देरी हुई। कुछ हफ्तों बाद, Openai ने एक साइन-अप विकल्प के बिना वॉयस इंजन का अनावरण किया, डेवलपर्स के एक छोटे समूह तक पहुंच को सीमित कर दिया जो वे 2023 के अंत से काम कर रहे थे।
ओपनई ने मार्च 2024 की घोषणा ब्लॉग पोस्ट में कहा, "हम सिंथेटिक आवाज़ों की जिम्मेदार तैनाती पर एक संवाद शुरू करने की उम्मीद करते हैं और समाज इन नई क्षमताओं के अनुकूल हो सकता है।" "इन वार्तालापों और इन छोटे पैमाने पर परीक्षणों के परिणामों के आधार पर, हम इस तकनीक को पैमाने पर तैनात करने के बारे में अधिक सूचित निर्णय लेंगे।"
एक लंबी विकास सड़क
2022 के बाद से वॉयस इंजन विकास में रहा है, ओपनआईएआई ने 2023 की गर्मियों में वैश्विक नीति निर्माताओं के लिए अपनी क्षमता और जोखिमों को प्रदर्शित किया है। आज, कई भागीदारों के पास वॉयस इंजन तक पहुंच है, जिसमें स्टार्टअप लिवॉक्स भी शामिल है, जिसका उद्देश्य विकलांग लोगों को स्वाभाविक रूप से संवाद करने में मदद करना है। हालांकि, लिवॉक्स के सीईओ कार्लोस परेरा ने कहा कि वे वॉयस इंजन को अपने उत्पादों में एकीकृत नहीं कर सकते क्योंकि इसके लिए एक इंटरनेट कनेक्शन की आवश्यकता होती है, जिसमें उनके कई ग्राहकों की कमी होती है। पेरीरा ने ईमेल के माध्यम से TechCrunch को बताया, "आवाज की गुणवत्ता और विभिन्न भाषाओं में आवाज़ों की बात करने की क्षमता अद्वितीय है - विशेष रूप से विकलांगों के साथ हमारे ग्राहकों के लिए," परेरा ने ईमेल के माध्यम से TechCrunch को बताया। "यह वास्तव में सबसे प्रभावशाली और आसानी से उपयोग करने वाला उपकरण है जो मैंने देखा है ... हमें उम्मीद है कि ओपनईआई जल्द ही एक ऑफ़लाइन संस्करण विकसित करता है।"
परेरा को Openai से संभावित लॉन्च की तारीख या सेवा के लिए चार्ज करने की योजना के बारे में कोई संकेत नहीं मिला है, और अब तक, Livox को इसके उपयोग के लिए भुगतान नहीं करना पड़ा है।
जून 2024 के एक पोस्ट में, ओपनई ने सुझाव दिया कि वॉयस इंजन में देरी का एक कारण अमेरिकी चुनाव चक्र के दौरान दुरुपयोग की संभावना थी। कंपनी ने सुरक्षा उपायों को लागू किया है, जिसमें उत्पन्न ऑडियो की उत्पत्ति का पता लगाने के लिए वॉटरमार्किंग भी शामिल है। डेवलपर्स को मूल वक्ता से "स्पष्ट सहमति" प्राप्त करनी चाहिए और अपने दर्शकों को "स्पष्ट खुलासे" करना होगा कि आवाजें एआई-जनित हैं। हालांकि, Openai ने विस्तृत नहीं किया है कि इन नीतियों को पैमाने पर कैसे लागू किया जाएगा, जो एक महत्वपूर्ण चुनौती हो सकती है।
Openai ने वक्ताओं को सत्यापित करने के लिए "वॉयस ऑथेंटिकेशन अनुभव" बनाने का संकेत दिया और प्रमुख आंकड़ों से मिलते-जुलते आवाज़ों के निर्माण को रोकने के लिए "नो-गो" सूची को सत्यापित किया। ये महत्वाकांक्षी परियोजनाएं हैं, और कोई भी गलतफहमी सुरक्षा पहलों के बारे में ओपनईआई की प्रतिष्ठा को और नुकसान पहुंचा सकती है।
वॉयस क्लोनिंग तकनीक को जिम्मेदारी से जारी करने के लिए प्रभावी फ़िल्टरिंग और आईडी सत्यापन आवश्यक होता जा रहा है। एआई वॉयस क्लोनिंग 2024 का तीसरा सबसे तेजी से बढ़ता हुआ घोटाला था, जिससे धोखाधड़ी और बैंक सुरक्षा जांच को दरकिनार करने के लिए गोपनीयता और कॉपीराइट कानूनों को गति बनाए रखने के लिए संघर्ष करना पड़ा। दुर्भावनापूर्ण अभिनेताओं ने मशहूर हस्तियों और राजनेताओं के डीपफेक बनाने के लिए वॉयस क्लोनिंग का उपयोग किया है, जो सोशल मीडिया पर तेजी से फैल गए हैं।
Openai अगले सप्ताह वॉयस इंजन जारी कर सकता है, या यह कभी नहीं हो सकता है। कंपनी ने सेवा को स्कोप में रखने पर विचार करने का उल्लेख किया है। लेकिन एक बात निश्चित है: चाहे प्रकाशिकी, सुरक्षा, या दोनों के लिए, वॉयस इंजन का सीमित पूर्वावलोकन ओपनई के इतिहास में सबसे लंबे समय तक में से एक बन गया है।
संबंधित लेख
Google検索では、複雑なマルチパートクエリ用に「AIモード」が導入されています
Googleは「AIモード」を検索して、Prplexity AIとChatGptgoogleに対抗し、AIアリーナでゲームを強化し、検索エンジンで実験的な「AIモード」機能を開始します。 Perplexity AIやOpenaiのChatGPT検索などを引き受けることを目的としたこの新しいモードは、水で発表されました
chatgptのユーザー名の未承諾の使用は、一部の人の間で「不気味な」懸念を引き起こします
ChatGPTの一部のユーザーは最近、奇妙な新機能に遭遇しました。チャットボットは、問題を乗り越えながら名前を使用することがあります。これは以前の通常の動作の一部ではなく、多くのユーザーがChatGptが何を呼ぶかを言わずに自分の名前に言及すると報告しています。意見
OpenaiはChatGptを強化して、以前の会話を思い出します
Openaiは木曜日に、「Memory」と呼ばれるChatGptの新鮮な機能を展開することについて大きな発表を行いました。この気の利いたツールは、以前に話したことを思い出すことにより、AIとのチャットをよりパーソナライズするように設計されています。あなたが新しい詐欺を始めるたびに自分自身を繰り返す必要がないと想像してください
सूचना (5)
0/200
StephenScott
21 अप्रैल 2025 11:54:47 अपराह्न GMT
It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞
0
WillieHernández
21 अप्रैल 2025 11:54:47 अपराह्न GMT
オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞
0
BillyWilson
21 अप्रैल 2025 11:54:47 अपराह्न GMT
오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞
0
KennethKing
21 अप्रैल 2025 11:54:47 अपराह्न GMT
Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞
0
JeffreyThomas
21 अप्रैल 2025 11:54:47 अपराह्न GMT
¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞
0






Openai का वॉयस इंजन: एक लंबे समय से प्रतीक्षित रिलीज़?
पिछले मार्च के अंत में, Openai ने अपनी AI सेवा, वॉयस इंजन का एक "छोटे पैमाने पर पूर्वावलोकन" पेश किया, जिसने केवल 15 सेकंड के भाषण का उपयोग करके एक व्यक्ति की आवाज को क्लोन करने का वादा किया था। एक वर्ष में तेजी से आगे बढ़ें, और टूल अभी भी पूर्वावलोकन मोड में है, एक पूर्ण लॉन्च के लिए कोई स्पष्ट समयरेखा नहीं है - या यहां तक कि यह पुष्टि करता है कि यह कभी भी दिन के प्रकाश को देखेगा।
वॉयस इंजन को व्यापक रूप से रोल आउट करने की झिझक दुरुपयोग के बारे में चिंताओं से उपजी हो सकती है, या शायद नियामक जांच को दरकिनार करने का प्रयास। Openai ने सुरक्षा पर आकर्षक उत्पादों को प्राथमिकता देने और प्रतियोगियों के आगे बाजार में भाग लेने के लिए अतीत में आलोचना का सामना किया है।
Openai के एक प्रवक्ता ने TechCrunch को बताया कि कंपनी अभी भी "ट्रस्टेड पार्टनर्स" के एक चुनिंदा समूह के साथ वॉयस इंजन का परीक्षण कर रही है। प्रवक्ता ने बताया, "हम सीख रहे हैं कि हमारे साथी मॉडल की उपयोगिता और सुरक्षा को बढ़ाने के लिए तकनीक का उपयोग कैसे कर रहे हैं।" "यह अपने अनुप्रयोगों को देखने के लिए रोमांचक है, जिसमें स्पीच थेरेपी और भाषा सीखने से लेकर ग्राहक सहायता, वीडियो गेम वर्ण और एआई अवतार शामिल हैं।"
वॉयस इंजन: द जर्नी अब तक
वॉयस इंजन, जो Openai के टेक्स्ट-टू-स्पीच एपीआई और CHATGPT के वॉयस मोड में आवाज़ों को चलाता है, उल्लेखनीय रूप से प्राकृतिक-ध्वनि वाला भाषण बनाता है जो मूल वक्ता की बारीकी से नकल करता है। यह पाठ को भाषण में परिवर्तित करता है, केवल कुछ सामग्री दिशानिर्देशों द्वारा विवश है। हालांकि, रोलआउट को शुरू से ही देरी और रिलीज की तारीखों को स्थानांतरित करने से त्रस्त कर दिया गया है।
जून 2024 के एक ब्लॉग पोस्ट में, ओपनई ने विस्तृत किया कि वॉयस इंजन मॉडल कैसे लगता है कि एक स्पीकर को किसी दिए गए पाठ के लिए लगता है, विभिन्न आवाज़ों, लहजे और बोलने की शैलियों को देखते हुए, ध्वनियों की भविष्यवाणी करना सीखता है। यह मॉडल को न केवल पाठ से भाषण उत्पन्न करने की अनुमति देता है, बल्कि "बोले गए उच्चारण" का उत्पादन करने के लिए यह भी दर्शाता है कि अलग -अलग वक्ताओं को पाठ को जोर से कैसे आवाज़ मिलेगी।
मूल रूप से, वॉयस इंजन, जिसे कस्टम वॉयस कहा जाता है, को TechCrunch द्वारा देखे गए ड्राफ्ट ब्लॉग पोस्ट के अनुसार, 7 मार्च, 2024 को Openai के API में शामिल होने के लिए तैयार किया गया था। योजना शुरू में 100 "विश्वसनीय डेवलपर्स तक पहुंच प्रदान करने" की थी, जो सामाजिक लाभों के साथ उन विकासशील ऐप्स को प्राथमिकता दे रही है या प्रौद्योगिकी के अभिनव और जिम्मेदार उपयोग को दिखाती है। Openai ने पहले से ही सेवा को ट्रेडमार्क किया था और "मानक" आवाज़ों के लिए $ 15 प्रति मिलियन वर्णों और "एचडी गुणवत्ता" आवाज़ों के लिए $ 30 प्रति मिलियन वर्णों के लिए मूल्य निर्धारण निर्धारित किया था।
लेकिन अंतिम क्षण में, घोषणा में देरी हुई। कुछ हफ्तों बाद, Openai ने एक साइन-अप विकल्प के बिना वॉयस इंजन का अनावरण किया, डेवलपर्स के एक छोटे समूह तक पहुंच को सीमित कर दिया जो वे 2023 के अंत से काम कर रहे थे।
ओपनई ने मार्च 2024 की घोषणा ब्लॉग पोस्ट में कहा, "हम सिंथेटिक आवाज़ों की जिम्मेदार तैनाती पर एक संवाद शुरू करने की उम्मीद करते हैं और समाज इन नई क्षमताओं के अनुकूल हो सकता है।" "इन वार्तालापों और इन छोटे पैमाने पर परीक्षणों के परिणामों के आधार पर, हम इस तकनीक को पैमाने पर तैनात करने के बारे में अधिक सूचित निर्णय लेंगे।"
एक लंबी विकास सड़क
2022 के बाद से वॉयस इंजन विकास में रहा है, ओपनआईएआई ने 2023 की गर्मियों में वैश्विक नीति निर्माताओं के लिए अपनी क्षमता और जोखिमों को प्रदर्शित किया है। आज, कई भागीदारों के पास वॉयस इंजन तक पहुंच है, जिसमें स्टार्टअप लिवॉक्स भी शामिल है, जिसका उद्देश्य विकलांग लोगों को स्वाभाविक रूप से संवाद करने में मदद करना है। हालांकि, लिवॉक्स के सीईओ कार्लोस परेरा ने कहा कि वे वॉयस इंजन को अपने उत्पादों में एकीकृत नहीं कर सकते क्योंकि इसके लिए एक इंटरनेट कनेक्शन की आवश्यकता होती है, जिसमें उनके कई ग्राहकों की कमी होती है। पेरीरा ने ईमेल के माध्यम से TechCrunch को बताया, "आवाज की गुणवत्ता और विभिन्न भाषाओं में आवाज़ों की बात करने की क्षमता अद्वितीय है - विशेष रूप से विकलांगों के साथ हमारे ग्राहकों के लिए," परेरा ने ईमेल के माध्यम से TechCrunch को बताया। "यह वास्तव में सबसे प्रभावशाली और आसानी से उपयोग करने वाला उपकरण है जो मैंने देखा है ... हमें उम्मीद है कि ओपनईआई जल्द ही एक ऑफ़लाइन संस्करण विकसित करता है।"
परेरा को Openai से संभावित लॉन्च की तारीख या सेवा के लिए चार्ज करने की योजना के बारे में कोई संकेत नहीं मिला है, और अब तक, Livox को इसके उपयोग के लिए भुगतान नहीं करना पड़ा है।
जून 2024 के एक पोस्ट में, ओपनई ने सुझाव दिया कि वॉयस इंजन में देरी का एक कारण अमेरिकी चुनाव चक्र के दौरान दुरुपयोग की संभावना थी। कंपनी ने सुरक्षा उपायों को लागू किया है, जिसमें उत्पन्न ऑडियो की उत्पत्ति का पता लगाने के लिए वॉटरमार्किंग भी शामिल है। डेवलपर्स को मूल वक्ता से "स्पष्ट सहमति" प्राप्त करनी चाहिए और अपने दर्शकों को "स्पष्ट खुलासे" करना होगा कि आवाजें एआई-जनित हैं। हालांकि, Openai ने विस्तृत नहीं किया है कि इन नीतियों को पैमाने पर कैसे लागू किया जाएगा, जो एक महत्वपूर्ण चुनौती हो सकती है।
Openai ने वक्ताओं को सत्यापित करने के लिए "वॉयस ऑथेंटिकेशन अनुभव" बनाने का संकेत दिया और प्रमुख आंकड़ों से मिलते-जुलते आवाज़ों के निर्माण को रोकने के लिए "नो-गो" सूची को सत्यापित किया। ये महत्वाकांक्षी परियोजनाएं हैं, और कोई भी गलतफहमी सुरक्षा पहलों के बारे में ओपनईआई की प्रतिष्ठा को और नुकसान पहुंचा सकती है।
वॉयस क्लोनिंग तकनीक को जिम्मेदारी से जारी करने के लिए प्रभावी फ़िल्टरिंग और आईडी सत्यापन आवश्यक होता जा रहा है। एआई वॉयस क्लोनिंग 2024 का तीसरा सबसे तेजी से बढ़ता हुआ घोटाला था, जिससे धोखाधड़ी और बैंक सुरक्षा जांच को दरकिनार करने के लिए गोपनीयता और कॉपीराइट कानूनों को गति बनाए रखने के लिए संघर्ष करना पड़ा। दुर्भावनापूर्ण अभिनेताओं ने मशहूर हस्तियों और राजनेताओं के डीपफेक बनाने के लिए वॉयस क्लोनिंग का उपयोग किया है, जो सोशल मीडिया पर तेजी से फैल गए हैं।
Openai अगले सप्ताह वॉयस इंजन जारी कर सकता है, या यह कभी नहीं हो सकता है। कंपनी ने सेवा को स्कोप में रखने पर विचार करने का उल्लेख किया है। लेकिन एक बात निश्चित है: चाहे प्रकाशिकी, सुरक्षा, या दोनों के लिए, वॉयस इंजन का सीमित पूर्वावलोकन ओपनई के इतिहास में सबसे लंबे समय तक में से एक बन गया है।




It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞




オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞




오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞




Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞




¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞












