Openai अपने ट्रांसक्रिप्शन और वॉयस-जनरेटिंग AI मॉडल को अपग्रेड करता है
10 अप्रैल 2025
CharlesWhite
6
Openai अपने API के माध्यम से ट्रांसक्रिप्शन और वॉयस जनरेशन के लिए नए AI मॉडल को रोल कर रहा है, जो अपने पहले के संस्करणों पर महत्वपूर्ण सुधार का वादा करता है। ये अपडेट Openai के बड़े "एजेंटिक" विज़न का हिस्सा हैं, जो उपयोगकर्ताओं के लिए स्वतंत्र रूप से कार्य करने में सक्षम स्वायत्त प्रणालियों को बनाने पर केंद्रित है। जबकि "एजेंट" शब्द पर बहस की जा सकती है, ओपनई के उत्पाद के प्रमुख, ओलिवियर गोडेम, इसे एक चैटबॉट के रूप में देखते हैं जो एक व्यवसाय के ग्राहकों के साथ बातचीत कर सकता है।
"हम आने वाले महीनों में अधिक से अधिक एजेंटों को देखने जा रहे हैं," एक ब्रीफिंग के दौरान TechCrunch के साथ साझा किया गया था। "ओवररचिंग लक्ष्य ग्राहकों और डेवलपर्स को उन एजेंटों का उपयोग करने में सहायता करना है जो उपयोगी, सुलभ और सटीक हैं।"
Openai के नवीनतम टेक्स्ट-टू-स्पीच मॉडल, "GPT-4O-MINI-TTS" डब किए गए, न केवल अधिक आजीवन और बारीक भाषण का उत्पादन करना है, बल्कि इसके पूर्ववर्तियों की तुलना में अधिक अनुकूलनीय है। डेवलपर्स अब प्राकृतिक भाषा के आदेशों का उपयोग करके मॉडल का मार्गदर्शन कर सकते हैं, जैसे कि "एक पागल वैज्ञानिक की तरह बोलें" या "माइंडफुलनेस शिक्षक की तरह एक शांत आवाज का उपयोग करें।" नियंत्रण का यह स्तर अधिक व्यक्तिगत आवाज अनुभव के लिए अनुमति देता है।
यहाँ एक "सच्ची अपराध-शैली" का एक नमूना है, जो कि आवाज दी गई है:
और यहाँ एक महिला "पेशेवर" आवाज का एक उदाहरण है:
ओपनईएआई की उत्पाद टीम के एक सदस्य जेफ हैरिस ने टेकक्रंच पर जोर दिया कि उद्देश्य डेवलपर्स को आवाज "अनुभव" और "संदर्भ" दोनों को अनुकूलित करने में सक्षम बनाना है। "विभिन्न परिदृश्यों में, आप एक नीरस आवाज नहीं चाहते हैं," हैरिस ने समझाया। "उदाहरण के लिए, एक ग्राहक सहायता सेटिंग में जहां आवाज को गलती के लिए माफी मांगने की जरूरत है, आप उस भावना को आवाज में संक्रमित कर सकते हैं। हम दृढ़ता से मानते हैं कि डेवलपर्स और उपयोगकर्ता न केवल सामग्री, बल्कि भाषण के तरीके को नियंत्रित करना चाहते हैं।"
Openai के नए स्पीच-टू-टेक्स्ट प्रसाद, "GPT-4O-Transcribe" और "GPT-4O-Mini-Transcribe" पर जाना, ये मॉडल पुराने व्हिस्पर ट्रांसक्रिप्शन मॉडल को बदलने के लिए तैयार हैं। उच्च-गुणवत्ता वाले ऑडियो डेटा के एक विविध सरणी पर प्रशिक्षित, वे बेहतर तरीके से उच्चारण और विविध भाषण को संभालने का दावा करते हैं, यहां तक कि शोर सेटिंग्स में भी। इसके अतिरिक्त, इन मॉडलों को "मतिभ्रम" के लिए कम प्रवण होता है, एक समस्या जहां कानाफूसी कभी -कभी शब्दों या पूरे मार्ग का आविष्कार करती है, नस्लीय टिप्पणी या काल्पनिक चिकित्सा उपचार जैसी अशुद्धि को जोड़ते हैं।
"ये मॉडल इस संबंध में कानाफूसी पर महत्वपूर्ण सुधार दिखाते हैं," हैरिस ने कहा। "एक भरोसेमंद आवाज के अनुभव के लिए मॉडल सटीकता सुनिश्चित करना महत्वपूर्ण है, और सटीकता से, हमारा मतलब है कि मॉडल बिना किसी सामग्री को जोड़ने के बोले गए शब्दों को सही ढंग से कैप्चर करते हैं।"
हालांकि, प्रदर्शन भाषाओं में भिन्न हो सकता है। Openai के आंतरिक बेंचमार्क से संकेत मिलता है कि GPT-4O-Transcribe, दोनों के अधिक सटीक, तमिल, तेलुगु, मलयालम और कन्नड़ जैसी इंडिक और द्रविड़ियन भाषाओं के लिए 30% के पास "शब्द त्रुटि दर" है। इससे पता चलता है कि प्रत्येक दस शब्दों में से लगभग तीन इन भाषाओं में एक मानव प्रतिलेखन से भिन्न हो सकते हैं।

Openai प्रतिलेखन बेंचमार्किंग से परिणाम। छवि क्रेडिट: Openai
अपने सामान्य अभ्यास से एक प्रस्थान में, Openai इन नए प्रतिलेखन मॉडल को स्वतंत्र रूप से उपलब्ध नहीं कराएगा। ऐतिहासिक रूप से, उन्होंने वाणिज्यिक उपयोग के लिए एक एमआईटी लाइसेंस के तहत नए व्हिस्पर संस्करण जारी किए। हैरिस ने बताया कि GPT-4O-Transcribe और GPT-4O-Mini-Transcribe कानाफूसी से काफी बड़ा है, जिससे वे खुली रिलीज के लिए अनुपयुक्त हो जाते हैं।
हैरिस ने कहा, "ये मॉडल एक विशिष्ट लैपटॉप पर दौड़ने के लिए बहुत बड़े हैं।" "जब हम मॉडल को खुले तौर पर जारी करते हैं, तो हम इसे सोच-समझकर करना चाहते हैं, यह सुनिश्चित करते हुए कि वे विशिष्ट आवश्यकताओं के अनुरूप हैं। हम अंत-उपयोगकर्ता उपकरणों को ओपन-सोर्स मॉडल के लिए एक प्रमुख क्षेत्र के रूप में देखते हैं।"
20 मार्च, 2025, 11:54 पूर्वाह्न पीटी को शब्द त्रुटि दर के आसपास भाषा को स्पष्ट करने के लिए और अधिक हाल के संस्करण के साथ बेंचमार्क परिणाम चार्ट को अपडेट करने के लिए।
संबंधित लेख
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries
Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some
Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them.
Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations
OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
सूचना (20)
0/200
ThomasBaker
11 अप्रैल 2025 6:32:00 अपराह्न GMT
OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀
0
EmmaTurner
11 अप्रैल 2025 9:05:15 अपराह्न GMT
OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀
0
DanielThomas
10 अप्रैल 2025 7:20:36 अपराह्न GMT
OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀
0
JasonMartin
14 अप्रैल 2025 9:30:18 अपराह्न GMT
Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀
0
RobertLewis
10 अप्रैल 2025 3:34:07 अपराह्न GMT
OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀
0
OliverPhillips
11 अप्रैल 2025 5:06:16 अपराह्न GMT
OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖
0






Openai अपने API के माध्यम से ट्रांसक्रिप्शन और वॉयस जनरेशन के लिए नए AI मॉडल को रोल कर रहा है, जो अपने पहले के संस्करणों पर महत्वपूर्ण सुधार का वादा करता है। ये अपडेट Openai के बड़े "एजेंटिक" विज़न का हिस्सा हैं, जो उपयोगकर्ताओं के लिए स्वतंत्र रूप से कार्य करने में सक्षम स्वायत्त प्रणालियों को बनाने पर केंद्रित है। जबकि "एजेंट" शब्द पर बहस की जा सकती है, ओपनई के उत्पाद के प्रमुख, ओलिवियर गोडेम, इसे एक चैटबॉट के रूप में देखते हैं जो एक व्यवसाय के ग्राहकों के साथ बातचीत कर सकता है।
"हम आने वाले महीनों में अधिक से अधिक एजेंटों को देखने जा रहे हैं," एक ब्रीफिंग के दौरान TechCrunch के साथ साझा किया गया था। "ओवररचिंग लक्ष्य ग्राहकों और डेवलपर्स को उन एजेंटों का उपयोग करने में सहायता करना है जो उपयोगी, सुलभ और सटीक हैं।"
Openai के नवीनतम टेक्स्ट-टू-स्पीच मॉडल, "GPT-4O-MINI-TTS" डब किए गए, न केवल अधिक आजीवन और बारीक भाषण का उत्पादन करना है, बल्कि इसके पूर्ववर्तियों की तुलना में अधिक अनुकूलनीय है। डेवलपर्स अब प्राकृतिक भाषा के आदेशों का उपयोग करके मॉडल का मार्गदर्शन कर सकते हैं, जैसे कि "एक पागल वैज्ञानिक की तरह बोलें" या "माइंडफुलनेस शिक्षक की तरह एक शांत आवाज का उपयोग करें।" नियंत्रण का यह स्तर अधिक व्यक्तिगत आवाज अनुभव के लिए अनुमति देता है।
यहाँ एक "सच्ची अपराध-शैली" का एक नमूना है, जो कि आवाज दी गई है:
और यहाँ एक महिला "पेशेवर" आवाज का एक उदाहरण है:
ओपनईएआई की उत्पाद टीम के एक सदस्य जेफ हैरिस ने टेकक्रंच पर जोर दिया कि उद्देश्य डेवलपर्स को आवाज "अनुभव" और "संदर्भ" दोनों को अनुकूलित करने में सक्षम बनाना है। "विभिन्न परिदृश्यों में, आप एक नीरस आवाज नहीं चाहते हैं," हैरिस ने समझाया। "उदाहरण के लिए, एक ग्राहक सहायता सेटिंग में जहां आवाज को गलती के लिए माफी मांगने की जरूरत है, आप उस भावना को आवाज में संक्रमित कर सकते हैं। हम दृढ़ता से मानते हैं कि डेवलपर्स और उपयोगकर्ता न केवल सामग्री, बल्कि भाषण के तरीके को नियंत्रित करना चाहते हैं।"
Openai के नए स्पीच-टू-टेक्स्ट प्रसाद, "GPT-4O-Transcribe" और "GPT-4O-Mini-Transcribe" पर जाना, ये मॉडल पुराने व्हिस्पर ट्रांसक्रिप्शन मॉडल को बदलने के लिए तैयार हैं। उच्च-गुणवत्ता वाले ऑडियो डेटा के एक विविध सरणी पर प्रशिक्षित, वे बेहतर तरीके से उच्चारण और विविध भाषण को संभालने का दावा करते हैं, यहां तक कि शोर सेटिंग्स में भी। इसके अतिरिक्त, इन मॉडलों को "मतिभ्रम" के लिए कम प्रवण होता है, एक समस्या जहां कानाफूसी कभी -कभी शब्दों या पूरे मार्ग का आविष्कार करती है, नस्लीय टिप्पणी या काल्पनिक चिकित्सा उपचार जैसी अशुद्धि को जोड़ते हैं।
"ये मॉडल इस संबंध में कानाफूसी पर महत्वपूर्ण सुधार दिखाते हैं," हैरिस ने कहा। "एक भरोसेमंद आवाज के अनुभव के लिए मॉडल सटीकता सुनिश्चित करना महत्वपूर्ण है, और सटीकता से, हमारा मतलब है कि मॉडल बिना किसी सामग्री को जोड़ने के बोले गए शब्दों को सही ढंग से कैप्चर करते हैं।"
हालांकि, प्रदर्शन भाषाओं में भिन्न हो सकता है। Openai के आंतरिक बेंचमार्क से संकेत मिलता है कि GPT-4O-Transcribe, दोनों के अधिक सटीक, तमिल, तेलुगु, मलयालम और कन्नड़ जैसी इंडिक और द्रविड़ियन भाषाओं के लिए 30% के पास "शब्द त्रुटि दर" है। इससे पता चलता है कि प्रत्येक दस शब्दों में से लगभग तीन इन भाषाओं में एक मानव प्रतिलेखन से भिन्न हो सकते हैं।
अपने सामान्य अभ्यास से एक प्रस्थान में, Openai इन नए प्रतिलेखन मॉडल को स्वतंत्र रूप से उपलब्ध नहीं कराएगा। ऐतिहासिक रूप से, उन्होंने वाणिज्यिक उपयोग के लिए एक एमआईटी लाइसेंस के तहत नए व्हिस्पर संस्करण जारी किए। हैरिस ने बताया कि GPT-4O-Transcribe और GPT-4O-Mini-Transcribe कानाफूसी से काफी बड़ा है, जिससे वे खुली रिलीज के लिए अनुपयुक्त हो जाते हैं।
हैरिस ने कहा, "ये मॉडल एक विशिष्ट लैपटॉप पर दौड़ने के लिए बहुत बड़े हैं।" "जब हम मॉडल को खुले तौर पर जारी करते हैं, तो हम इसे सोच-समझकर करना चाहते हैं, यह सुनिश्चित करते हुए कि वे विशिष्ट आवश्यकताओं के अनुरूप हैं। हम अंत-उपयोगकर्ता उपकरणों को ओपन-सोर्स मॉडल के लिए एक प्रमुख क्षेत्र के रूप में देखते हैं।"
20 मार्च, 2025, 11:54 पूर्वाह्न पीटी को शब्द त्रुटि दर के आसपास भाषा को स्पष्ट करने के लिए और अधिक हाल के संस्करण के साथ बेंचमार्क परिणाम चार्ट को अपडेट करने के लिए।




OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀




OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀




OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀




Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀




OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀




OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖












