घर समाचार Openai अपने ट्रांसक्रिप्शन और वॉयस-जनरेटिंग AI मॉडल को अपग्रेड करता है

Openai अपने ट्रांसक्रिप्शन और वॉयस-जनरेटिंग AI मॉडल को अपग्रेड करता है

10 अप्रैल 2025
CharlesWhite
6

Openai अपने API के माध्यम से ट्रांसक्रिप्शन और वॉयस जनरेशन के लिए नए AI मॉडल को रोल कर रहा है, जो अपने पहले के संस्करणों पर महत्वपूर्ण सुधार का वादा करता है। ये अपडेट Openai के बड़े "एजेंटिक" विज़न का हिस्सा हैं, जो उपयोगकर्ताओं के लिए स्वतंत्र रूप से कार्य करने में सक्षम स्वायत्त प्रणालियों को बनाने पर केंद्रित है। जबकि "एजेंट" शब्द पर बहस की जा सकती है, ओपनई के उत्पाद के प्रमुख, ओलिवियर गोडेम, इसे एक चैटबॉट के रूप में देखते हैं जो एक व्यवसाय के ग्राहकों के साथ बातचीत कर सकता है।

"हम आने वाले महीनों में अधिक से अधिक एजेंटों को देखने जा रहे हैं," एक ब्रीफिंग के दौरान TechCrunch के साथ साझा किया गया था। "ओवररचिंग लक्ष्य ग्राहकों और डेवलपर्स को उन एजेंटों का उपयोग करने में सहायता करना है जो उपयोगी, सुलभ और सटीक हैं।"

Openai के नवीनतम टेक्स्ट-टू-स्पीच मॉडल, "GPT-4O-MINI-TTS" डब किए गए, न केवल अधिक आजीवन और बारीक भाषण का उत्पादन करना है, बल्कि इसके पूर्ववर्तियों की तुलना में अधिक अनुकूलनीय है। डेवलपर्स अब प्राकृतिक भाषा के आदेशों का उपयोग करके मॉडल का मार्गदर्शन कर सकते हैं, जैसे कि "एक पागल वैज्ञानिक की तरह बोलें" या "माइंडफुलनेस शिक्षक की तरह एक शांत आवाज का उपयोग करें।" नियंत्रण का यह स्तर अधिक व्यक्तिगत आवाज अनुभव के लिए अनुमति देता है।

यहाँ एक "सच्ची अपराध-शैली" का एक नमूना है, जो कि आवाज दी गई है:

और यहाँ एक महिला "पेशेवर" आवाज का एक उदाहरण है:

ओपनईएआई की उत्पाद टीम के एक सदस्य जेफ हैरिस ने टेकक्रंच पर जोर दिया कि उद्देश्य डेवलपर्स को आवाज "अनुभव" और "संदर्भ" दोनों को अनुकूलित करने में सक्षम बनाना है। "विभिन्न परिदृश्यों में, आप एक नीरस आवाज नहीं चाहते हैं," हैरिस ने समझाया। "उदाहरण के लिए, एक ग्राहक सहायता सेटिंग में जहां आवाज को गलती के लिए माफी मांगने की जरूरत है, आप उस भावना को आवाज में संक्रमित कर सकते हैं। हम दृढ़ता से मानते हैं कि डेवलपर्स और उपयोगकर्ता न केवल सामग्री, बल्कि भाषण के तरीके को नियंत्रित करना चाहते हैं।"

Openai के नए स्पीच-टू-टेक्स्ट प्रसाद, "GPT-4O-Transcribe" और "GPT-4O-Mini-Transcribe" पर जाना, ये मॉडल पुराने व्हिस्पर ट्रांसक्रिप्शन मॉडल को बदलने के लिए तैयार हैं। उच्च-गुणवत्ता वाले ऑडियो डेटा के एक विविध सरणी पर प्रशिक्षित, वे बेहतर तरीके से उच्चारण और विविध भाषण को संभालने का दावा करते हैं, यहां तक ​​कि शोर सेटिंग्स में भी। इसके अतिरिक्त, इन मॉडलों को "मतिभ्रम" के लिए कम प्रवण होता है, एक समस्या जहां कानाफूसी कभी -कभी शब्दों या पूरे मार्ग का आविष्कार करती है, नस्लीय टिप्पणी या काल्पनिक चिकित्सा उपचार जैसी अशुद्धि को जोड़ते हैं।

"ये मॉडल इस संबंध में कानाफूसी पर महत्वपूर्ण सुधार दिखाते हैं," हैरिस ने कहा। "एक भरोसेमंद आवाज के अनुभव के लिए मॉडल सटीकता सुनिश्चित करना महत्वपूर्ण है, और सटीकता से, हमारा मतलब है कि मॉडल बिना किसी सामग्री को जोड़ने के बोले गए शब्दों को सही ढंग से कैप्चर करते हैं।"

हालांकि, प्रदर्शन भाषाओं में भिन्न हो सकता है। Openai के आंतरिक बेंचमार्क से संकेत मिलता है कि GPT-4O-Transcribe, दोनों के अधिक सटीक, तमिल, तेलुगु, मलयालम और कन्नड़ जैसी इंडिक और द्रविड़ियन भाषाओं के लिए 30% के पास "शब्द त्रुटि दर" है। इससे पता चलता है कि प्रत्येक दस शब्दों में से लगभग तीन इन भाषाओं में एक मानव प्रतिलेखन से भिन्न हो सकते हैं।

ओपनई ट्रांसक्रिप्शन परिणाम

Openai प्रतिलेखन बेंचमार्किंग से परिणाम। छवि क्रेडिट: Openai

अपने सामान्य अभ्यास से एक प्रस्थान में, Openai इन नए प्रतिलेखन मॉडल को स्वतंत्र रूप से उपलब्ध नहीं कराएगा। ऐतिहासिक रूप से, उन्होंने वाणिज्यिक उपयोग के लिए एक एमआईटी लाइसेंस के तहत नए व्हिस्पर संस्करण जारी किए। हैरिस ने बताया कि GPT-4O-Transcribe और GPT-4O-Mini-Transcribe कानाफूसी से काफी बड़ा है, जिससे वे खुली रिलीज के लिए अनुपयुक्त हो जाते हैं।

हैरिस ने कहा, "ये मॉडल एक विशिष्ट लैपटॉप पर दौड़ने के लिए बहुत बड़े हैं।" "जब हम मॉडल को खुले तौर पर जारी करते हैं, तो हम इसे सोच-समझकर करना चाहते हैं, यह सुनिश्चित करते हुए कि वे विशिष्ट आवश्यकताओं के अनुरूप हैं। हम अंत-उपयोगकर्ता उपकरणों को ओपन-सोर्स मॉडल के लिए एक प्रमुख क्षेत्र के रूप में देखते हैं।"

20 मार्च, 2025, 11:54 पूर्वाह्न पीटी को शब्द त्रुटि दर के आसपास भाषा को स्पष्ट करने के लिए और अधिक हाल के संस्करण के साथ बेंचमार्क परिणाम चार्ट को अपडेट करने के लिए।

संबंधित लेख
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them. Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
सूचना (20)
ThomasBaker
ThomasBaker 11 अप्रैल 2025 6:32:00 अपराह्न GMT

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 11 अप्रैल 2025 9:05:15 अपराह्न GMT

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 10 अप्रैल 2025 7:20:36 अपराह्न GMT

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 14 अप्रैल 2025 9:30:18 अपराह्न GMT

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 10 अप्रैल 2025 3:34:07 अपराह्न GMT

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 11 अप्रैल 2025 5:06:16 अपराह्न GMT

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

शीर्ष समाचार
वाइल्डफायर डिटेक्शन में एक सफलता: कैसे उपग्रहों का एक नया नक्षत्र पहले छोटे जंगल की आग का पता लगा सकता है यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं Adobe 10 विशिष्ट AI एजेंटों का अनावरण करता है: उनके व्यावसायिक अनुप्रयोगों की खोज करें AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है कंबियम का एआई कचरे की लकड़ी को लकड़ी में बदल देता है नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है एआई नैतिकता की उपेक्षा करना भारी जोखिम पैदा करता है: एआई को जिम्मेदारी से कैसे लागू किया जाए Openai सभी उपयोगकर्ताओं के लिए छवि जनरेटर का अनावरण करता है यूके एआई बॉडी ने सिक्योरिटी इंस्टीट्यूट को नाम दिया, एंथ्रोपिक के साथ एमओयू साइन किया क्या एआई हमारी बुद्धिमत्ता को कम कर रहा है?
अधिक
Back to Top
OR