Openai अपने ट्रांसक्रिप्शन और वॉयस-जनरेटिंग AI मॉडल को अपग्रेड करता है

घर

समाचार

10 अप्रैल 2025

CharlesWhite

115

# openai # api

OpenAI अपने API के माध्यम से ट्रांसक्रिप्शन और वॉयस जनरेशन के लिए नए AI मॉडल लॉन्च कर रहा है, जो अपने पिछले संस्करणों की तुलना में महत्वपूर्ण सुधार का वादा करते हैं। ये अपडेट OpenAI की व्यापक "एजेंटिक" दृष्टि का हिस्सा हैं, जो उपयोगकर्ताओं के लिए स्वतंत्र रूप से कार्य करने में सक्षम स्वायत्त प्रणालियों को बनाने पर केंद्रित है। हालांकि "एजेंट" शब्द पर बहस हो सकती है, OpenAI के प्रोडक्ट हेड, ओलिवियर गोडमेंट, इसे एक चैटबॉट के रूप में देखते हैं जो किसी व्यवसाय के ग्राहकों के साथ बातचीत कर सकता है।

"हम आने वाले महीनों में और अधिक एजेंट्स उभरते हुए देखेंगे," गोडमेंट ने टेकक्रंच के साथ एक ब्रीफिंग के दौरान साझा किया। "मुख्य लक्ष्य ग्राहकों और डेवलपर्स को उपयोगी, सुलभ और सटीक एजेंट्स का उपयोग करने में सहायता करना है।"

OpenAI का नवीनतम टेक्स्ट-टू-स्पीच मॉडल, जिसे "gpt-4o-mini-tts" नाम दिया गया है, न केवल अधिक जीवंत और सूक्ष्म भाषण उत्पन्न करने का लक्ष्य रखता है, बल्कि यह अपने पूर्ववर्तियों की तुलना में अधिक अनुकूलनीय भी है। डेवलपर्स अब प्राकृतिक भाषा कमांड का उपयोग करके मॉडल को निर्देशित कर सकते हैं, जैसे "पागल वैज्ञानिक की तरह बोलें" या "मनन शिक्षक की तरह शांत स्वर का उपयोग करें।" नियंत्रण का यह स्तर अधिक व्यक्तिगत वॉयस अनुभव की अनुमति देता है।

यहाँ एक "ट्रू क्राइम-स्टाइल," पुरानी आवाज का नमूना है:

और यहाँ एक महिला "पेशेवर" आवाज का उदाहरण है:

OpenAI की प्रोडक्ट टीम के सदस्य जेफ हैरिस ने टेकक्रंच को बताया कि लक्ष्य डेवलपर्स को वॉयस "अनुभव" और "संदर्भ" दोनों को अनुकूलित करने में सक्षम बनाना है। "विभिन्न परिदृश्यों में, आप एकरस आवाज नहीं चाहते," हैरिस ने समझाया। "उदाहरण के लिए, ग्राहक सहायता सेटिंग में जहां आवाज को किसी गलती के लिए खेद व्यक्त करने की आवश्यकता होती है, आप उस भावना को आवाज में डाल सकते हैं। हम दृढ़ता से मानते हैं कि डेवलपर्स और उपयोगकर्ता न केवल सामग्री, बल्कि बोलने के तरीके को भी नियंत्रित करना चाहते हैं।"

OpenAI के नए स्पीच-टू-टेक्स्ट ऑफरिंग्स, "gpt-4o-transcribe" और "gpt-4o-mini-transcribe," पुराने Whisper ट्रांसक्रिप्शन मॉडल को प्रतिस्थापित करने के लिए तैयार हैं। उच्च गुणवत्ता वाले विविध ऑडियो डेटा पर प्रशिक्षित, वे दावा करते हैं कि वे उच्चारण और विविध भाषण को बेहतर ढंग से संभालते हैं, यहां तक कि शोरगुल वाले वातावरण में भी। इसके अतिरिक्त, ये मॉडल "हैलुसिनेशन" की समस्या से कम प्रभावित हैं, जहां Whisper कभी-कभी शब्दों या पूरे अंशों का आविष्कार करता था, जिससे ट्रांसक्रिप्ट में नस्लीय टिप्पणियां या काल्पनिक चिकित्सा उपचार जैसे अशुद्धियां जुड़ जाती थीं।

"इस मामले में ये मॉडल Whisper की तुलना में महत्वपूर्ण सुधार दिखाते हैं," हैरिस ने उल्लेख किया। "मॉडल की सटीकता सुनिश्चित करना एक भरोसेमंद वॉयस अनुभव के लिए महत्वपूर्ण है, और सटीकता से हमारा मतलब है कि मॉडल बोले गए शब्दों को सही ढंग से कैप्चर करते हैं बिना अनकहे सामग्री को जोड़े।"

हालांकि, प्रदर्शन विभिन्न भाषाओं में भिन्न हो सकता है। OpenAI के आंतरिक बेंचमार्क इंगित करते हैं कि gpt-4o-transcribe, जो दोनों में अधिक सटीक है, तमिल, तेलुगु, मलयालम और कन्नड़ जैसी इंडिक और द्रविड़ भाषाओं के लिए "वर्ड एरर रेट" लगभग 30% है। इसका मतलब है कि इन भाषाओं में प्रत्येक दस में से लगभग तीन शब्द मानव ट्रांसक्रिप्शन से भिन्न हो सकते हैं।

OpenAI ट्रांसक्रिप्शन परिणाम

OpenAI ट्रांसक्रिप्शन बेंचमार्किंग के परिणाम। चित्र साभार: OpenAI

अपनी सामान्य प्रथा से हटकर, OpenAI इन नए ट्रांसक्रिप्शन मॉडल को मुफ्त में उपलब्ध नहीं कराएगा। ऐतिहासिक रूप से, उन्होंने नए Whisper संस्करणों को व्यावसायिक उपयोग के लिए MIT लाइसेंस के तहत जारी किया था। हैरिस ने बताया कि gpt-4o-transcribe और gpt-4o-mini-transcribe Whisper की तुलना में काफी बड़े हैं, जिससे वे खुले रिलीज के लिए उपयुक्त नहीं हैं।

"ये मॉडल Whisper की तरह एक सामान्य लैपटॉप पर चलाने के लिए बहुत बड़े हैं," हैरिस ने कहा। "जब हम मॉडल को खुला रिलीज करते हैं, तो हम इसे सोच-समझकर करना चाहते हैं, यह सुनिश्चित करते हुए कि वे विशिष्ट आवश्यकताओं के लिए अनुकूलित हों। हम अंतिम उपयोगकर्ता उपकरणों को ओपन-सोर्स मॉडल के लिए एक प्रमुख क्षेत्र के रूप में देखते हैं।"

20 मार्च, 2025, सुबह 11:54 बजे PT को अपडेट किया गया ताकि वर्ड एरर रेट के आसपास की भाषा को स्पष्ट किया जाए और बेंचमार्क परिणाम चार्ट को अधिक हाल के संस्करण के साथ अपडेट किया जाए।

संबंधित लेख

पूर्व OpenAI इंजीनियर ने कंपनी संस्कृति और तेजी से विकास पर अंतर्दृष्टि साझा की तीन सप्ताह पहले, कैल्विन फ्रेंच-ओवेन, एक इंजीनियर जिन्होंने OpenAI के एक प्रमुख उत्पाद में योगदान दिया, ने कंपनी छोड़ दी।उन्होंने हाल ही में एक आकर्षक ब्लॉग पोस्ट साझा किया जिसमें OpenAI में उनके एक स

Google ने उद्यम बाजार में OpenAI के साथ प्रतिस्पर्धा करने के लिए उत्पादन-तैयार Gemini 2.5 AI मॉडल्स का अनावरण किया Google ने सोमवार को अपनी AI रणनीति को और मजबूत किया, उद्यम उपयोग के लिए अपने उन्नत Gemini 2.5 मॉडल्स को लॉन्च किया और कीमत व प्रदर्शन पर प्रतिस्पर्धा करने के लिए एक लागत-कुशल संस्करण पेश किया।Alphabet

मेटा AI प्रतिभा के लिए उच्च वेतन प्रदान करता है, 100 मिलियन डॉलर के साइनिंग बोनस से इनकार मेटा अपने नए सुपरइंटेलिजेंस लैब में AI शोधकर्ताओं को आकर्षित करने के लिए लाखों डॉलर के मुआवजे पैकेज प्रदान कर रहा है। हालांकि, एक भर्ती किए गए शोधकर्ता और लीक हुई आंतरिक बैठक की टिप्पणियों के अनुसार,

सूचना (31)

0/200

जमा करना

BenHernández

23 जुलाई 2025 2:20:48 अपराह्न IST

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor

21 अप्रैल 2025 1:27:07 पूर्वाह्न IST

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen

17 अप्रैल 2025 10:20:37 पूर्वाह्न IST

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen

17 अप्रैल 2025 10:08:26 पूर्वाह्न IST

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark

16 अप्रैल 2025 11:24:41 पूर्वाह्न IST

OpenAIの新しい音声認識と音声生成モデルは革命的です！ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります！🎙️💸

SamuelRoberts

16 अप्रैल 2025 2:54:36 पूर्वाह्न IST

Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊

शीर्ष समाचार

GEMINI 2.5 प्रो अब असीमित और सस्ता क्लाउड की तुलना में सस्ता, GPT-4O 2025 के शीर्ष AI वीडियो जनरेटर: Pika Labs बनाम विकल्प एआई वॉयसओवर: रियलिस्टिक वॉयस क्रिएशन का अल्टीमेट गाइड Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं AI वोइस क्लोनिंग: वोइस कनवर्सन में पकड़ हासिल करने का अंतिम गाइड एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया

अधिक

प्रदर्शित