OpenAI는 전사 및 음성 생성 AI 모델을 업그레이드합니다
2025년 4월 10일
CharlesWhite
6
OpenAi는 API를 통해 전사 및 음성 생성을위한 새로운 AI 모델을 출시하여 이전 버전에 비해 크게 개선되었습니다. 이러한 업데이트는 OpenAI의 더 큰 "에이전트"비전의 일부이며 사용자를 위해 독립적으로 작업을 수행 할 수있는 자율 시스템을 만드는 데 중점을 둡니다. "에이전트"라는 용어는 토론 할 수 있지만 Openai의 제품 책임자 인 Olivier Godement는 비즈니스 고객과 상호 작용할 수있는 챗봇으로보고 있습니다.
"우리는 앞으로 몇 달 안에 점점 더 많은 요원들이 등장하는 것을 보게 될 것"이라고 Godement는 브리핑 중에 TechCrunch와 공유했습니다. "가장 중요한 목표는 고객과 개발자가 유용하고 접근 가능하며 정확한 에이전트를 활용하도록 지원하는 것입니다."
"GPT-4O-MINI-TTS"라고 불리는 OpenAi의 최신 텍스트 음성 연설 모델은 더 많은 생명과 미묘한 연설을 생성하는 것을 목표로 할뿐만 아니라 전임자보다 더 적응력이 뛰어납니다. 개발자는 이제 "미친 과학자처럼 말하는 것"또는 "마음 챙김 교사처럼 고요한 목소리를 사용하십시오"와 같은 자연어 명령을 사용하여 모델을 안내 할 수 있습니다. 이 수준의 제어는보다 개인화 된 음성 경험을 허용합니다.
다음은 "진정한 범죄 스타일"풍화 목소리의 샘플입니다.
그리고 다음은 여성 "전문적인"목소리의 예입니다.
OpenAi의 제품 팀의 일원 인 Jeff Harris는 TechCrunch에게 목표는 개발자가 "경험"과 "컨텍스트"를 모두 사용자 정의 할 수 있도록하는 것이라고 강조했습니다. 해리스는“다양한 시나리오에서 단조로운 목소리를 원하지 않는다”고 설명했다. "예를 들어, 목소리가 실수로 사과하는 소리가 필요한 고객 지원 설정에서는 그 감정을 목소리에 주입 할 수 있습니다. 우리는 개발자와 사용자가 내용뿐만 아니라 언어 방식을 제어하기를 원한다고 강력하게 믿습니다."
OpenAi의 새로운 음성 텍스트 제품 인 "GPT-4O-Transcribe"및 "GPT-4O-Mini-Transcribe"로 이동 하여이 모델은 구식 Whisper Transcription 모델을 대체하도록 설정되었습니다. 다양한 고품질 오디오 데이터에 대해 교육을받은 시끄러운 설정에서도 악센트가 있고 다양한 음성을 더 잘 처리한다고 주장합니다. 또한,이 모델들은 "환각"에 덜 쉬운 일이지만, Whisper가 때때로 단어 나 전체 구절을 발명 할 수있는 문제인 인종 주석이나 가상 의학적 치료와 같은 부정확성을 성적표에 추가하는 문제입니다.
해리스는“이 모델들은 이와 관련하여 속삭임보다 크게 개선된다”고 지적했다. "신뢰할 수있는 음성 경험에 모델 정확도를 확인하는 것이 중요하며 정확성에 따라 모델이 무성 컨텐츠를 추가하지 않고 구어 단어를 올바르게 캡처합니다."
그러나 성능은 언어에 따라 다를 수 있습니다. OpenAi의 내부 벤치 마크에 따르면이 둘 중 더 정확한 GPT-4O 전송은 Tamil, Telugu, Malayalam 및 Kannada와 같은 Indic 및 Dravidian 언어의 30%에 가까운 "단어 오류율"을 가지고 있음을 나타냅니다. 이것은 10 단어 중 약 3 개가이 언어의 인간 전사와 다를 수 있음을 시사합니다.

OpenAI 전사 벤치마킹의 결과. 이미지 크레딧 : OpenAi
일반적인 연습에서 벗어나면서 OpenAi는 이러한 새로운 전사 모델을 자유롭게 사용할 수있게하지 않을 것입니다. 역사적으로 그들은 상업용 사용을 위해 MIT 라이센스로 새로운 Whisper 버전을 발표했습니다. Harris는 GPT-4O-Transcribe 및 GPT-4O-Mini-Transcribe가 Whisper보다 상당히 크기 때문에 오픈 릴리스에 부적합하다고 지적했습니다.
해리스는“이 모델은 Whisper와 같은 일반적인 노트북에서 실행하기에는 너무 커서 덧붙였다. "우리는 모델을 공개적으로 공개 할 때 신중하게 모델을 공개하고 특정 요구에 맞게 조정되도록하고자합니다. 최종 사용자 기기를 오픈 소스 모델의 주요 영역으로 간주합니다."
2025 년 3 월 20 일, 오전 11시 54 분 PT를 업데이트하여 단어 오류율에 대한 언어를 명확히하고 최신 버전으로 벤치 마크 결과 차트를 업데이트합니다.
관련 기사
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries
Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some
Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them.
Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations
OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
의견 (20)
0/200
ThomasBaker
2025년 4월 11일 오후 6시 32분 0초 GMT
OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀
0
EmmaTurner
2025년 4월 11일 오후 9시 5분 15초 GMT
OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀
0
DanielThomas
2025년 4월 10일 오후 7시 20분 36초 GMT
OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀
0
JasonMartin
2025년 4월 14일 오후 9시 30분 18초 GMT
Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀
0
RobertLewis
2025년 4월 10일 오후 3시 34분 7초 GMT
OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀
0
OliverPhillips
2025년 4월 11일 오후 5시 6분 16초 GMT
OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖
0






OpenAi는 API를 통해 전사 및 음성 생성을위한 새로운 AI 모델을 출시하여 이전 버전에 비해 크게 개선되었습니다. 이러한 업데이트는 OpenAI의 더 큰 "에이전트"비전의 일부이며 사용자를 위해 독립적으로 작업을 수행 할 수있는 자율 시스템을 만드는 데 중점을 둡니다. "에이전트"라는 용어는 토론 할 수 있지만 Openai의 제품 책임자 인 Olivier Godement는 비즈니스 고객과 상호 작용할 수있는 챗봇으로보고 있습니다.
"우리는 앞으로 몇 달 안에 점점 더 많은 요원들이 등장하는 것을 보게 될 것"이라고 Godement는 브리핑 중에 TechCrunch와 공유했습니다. "가장 중요한 목표는 고객과 개발자가 유용하고 접근 가능하며 정확한 에이전트를 활용하도록 지원하는 것입니다."
"GPT-4O-MINI-TTS"라고 불리는 OpenAi의 최신 텍스트 음성 연설 모델은 더 많은 생명과 미묘한 연설을 생성하는 것을 목표로 할뿐만 아니라 전임자보다 더 적응력이 뛰어납니다. 개발자는 이제 "미친 과학자처럼 말하는 것"또는 "마음 챙김 교사처럼 고요한 목소리를 사용하십시오"와 같은 자연어 명령을 사용하여 모델을 안내 할 수 있습니다. 이 수준의 제어는보다 개인화 된 음성 경험을 허용합니다.
다음은 "진정한 범죄 스타일"풍화 목소리의 샘플입니다.
그리고 다음은 여성 "전문적인"목소리의 예입니다.
OpenAi의 제품 팀의 일원 인 Jeff Harris는 TechCrunch에게 목표는 개발자가 "경험"과 "컨텍스트"를 모두 사용자 정의 할 수 있도록하는 것이라고 강조했습니다. 해리스는“다양한 시나리오에서 단조로운 목소리를 원하지 않는다”고 설명했다. "예를 들어, 목소리가 실수로 사과하는 소리가 필요한 고객 지원 설정에서는 그 감정을 목소리에 주입 할 수 있습니다. 우리는 개발자와 사용자가 내용뿐만 아니라 언어 방식을 제어하기를 원한다고 강력하게 믿습니다."
OpenAi의 새로운 음성 텍스트 제품 인 "GPT-4O-Transcribe"및 "GPT-4O-Mini-Transcribe"로 이동 하여이 모델은 구식 Whisper Transcription 모델을 대체하도록 설정되었습니다. 다양한 고품질 오디오 데이터에 대해 교육을받은 시끄러운 설정에서도 악센트가 있고 다양한 음성을 더 잘 처리한다고 주장합니다. 또한,이 모델들은 "환각"에 덜 쉬운 일이지만, Whisper가 때때로 단어 나 전체 구절을 발명 할 수있는 문제인 인종 주석이나 가상 의학적 치료와 같은 부정확성을 성적표에 추가하는 문제입니다.
해리스는“이 모델들은 이와 관련하여 속삭임보다 크게 개선된다”고 지적했다. "신뢰할 수있는 음성 경험에 모델 정확도를 확인하는 것이 중요하며 정확성에 따라 모델이 무성 컨텐츠를 추가하지 않고 구어 단어를 올바르게 캡처합니다."
그러나 성능은 언어에 따라 다를 수 있습니다. OpenAi의 내부 벤치 마크에 따르면이 둘 중 더 정확한 GPT-4O 전송은 Tamil, Telugu, Malayalam 및 Kannada와 같은 Indic 및 Dravidian 언어의 30%에 가까운 "단어 오류율"을 가지고 있음을 나타냅니다. 이것은 10 단어 중 약 3 개가이 언어의 인간 전사와 다를 수 있음을 시사합니다.
일반적인 연습에서 벗어나면서 OpenAi는 이러한 새로운 전사 모델을 자유롭게 사용할 수있게하지 않을 것입니다. 역사적으로 그들은 상업용 사용을 위해 MIT 라이센스로 새로운 Whisper 버전을 발표했습니다. Harris는 GPT-4O-Transcribe 및 GPT-4O-Mini-Transcribe가 Whisper보다 상당히 크기 때문에 오픈 릴리스에 부적합하다고 지적했습니다.
해리스는“이 모델은 Whisper와 같은 일반적인 노트북에서 실행하기에는 너무 커서 덧붙였다. "우리는 모델을 공개적으로 공개 할 때 신중하게 모델을 공개하고 특정 요구에 맞게 조정되도록하고자합니다. 최종 사용자 기기를 오픈 소스 모델의 주요 영역으로 간주합니다."
2025 년 3 월 20 일, 오전 11시 54 분 PT를 업데이트하여 단어 오류율에 대한 언어를 명확히하고 최신 버전으로 벤치 마크 결과 차트를 업데이트합니다.




OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀




OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀




OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀




Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀




OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀




OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖












