옵션
뉴스
OpenAI는 전사 및 음성 생성 AI 모델을 업그레이드합니다

OpenAI는 전사 및 음성 생성 AI 모델을 업그레이드합니다

2025년 4월 10일
115

OpenAI는 API를 통해 전사 및 음성 생성을 위한 새로운 AI 모델을 출시하고 있으며, 이전 버전에 비해 상당한 개선을 약속하고 있습니다. 이러한 업데이트는 사용자를 위해 독립적으로 작업을 수행할 수 있는 자율 시스템을 만드는 데 초점을 맞춘 OpenAI의 더 큰 "agentic" 비전의 일부입니다. "agent"라는 용어는 논쟁의 여지가 있을 수 있지만, OpenAI의 제품 책임자인 Olivier Godement는 이를 비즈니스 고객과 상호작용할 수 있는 챗봇으로 보고 있습니다.

"앞으로 몇 달 안에 점점 더 많은 에이전트가 등장할 것입니다,"라고 Godement는 TechCrunch와의 브리핑에서 공유했습니다. "전반적인 목표는 고객과 개발자가 유용하고 접근 가능하며 정확한 에이전트를 활용할 수 있도록 지원하는 것입니다."

OpenAI의 최신 텍스트-음성 변환 모델인 "gpt-4o-mini-tts"는 더 생생하고 미묘한 음성을 생성할 뿐만 아니라 이전 모델보다 더 적응력이 뛰어납니다. 이제 개발자는 "미친 과학자처럼 말해" 또는 "마음 챙김 교사처럼 차분한 목소리를 사용해"와 같은 자연어 명령을 통해 모델을 안내할 수 있습니다. 이러한 제어 수준은 더 개인화된 음성 경험을 가능하게 합니다.

다음은 "진범죄 스타일"의 거친 목소리 샘플입니다:

그리고 다음은 여성 "전문가" 목소리의 예입니다:

OpenAI의 제품 팀원인 Jeff Harris는 TechCrunch에 개발자가 음성 "경험"과 "맥락"을 모두 사용자 정의할 수 있도록 하는 것이 목표라고 강조했습니다. "다양한 시나리오에서 단조로운 목소리를 원하지 않습니다,"라고 Harris는 설명했습니다. "예를 들어, 고객 지원 환경에서 실수에 대해 사과하는 목소리가 필요할 때, 그 감정을 목소리에 주입할 수 있습니다. 우리는 개발자와 사용자가 콘텐츠뿐만 아니라 말하는 방식도 제어하고 싶어한다고 강하게 믿습니다."

OpenAI의 새로운 음성-텍스트 변환 제공물인 "gpt-4o-transcribe"와 "gpt-4o-mini-transcribe"는 구형 Whisper 전사 모델을 대체할 예정입니다. 다양한 고품질 오디오 데이터로 훈련된 이 모델들은 억양이 있거나 다양한 음성을 더 잘 처리하며, 소음이 많은 환경에서도 더 나은 성능을 보입니다. 또한, 이 모델들은 Whisper가 때때로 단어나 전체 구절을 만들어내어 인종적 논평이나 가상의 의료 치료와 같은 부정확성을 전사에 추가하는 "환각" 문제에 덜 취약합니다.

"이 모델들은 이 점에서 Whisper에 비해 상당한 개선을 보입니다,"라고 Harris는 언급했습니다. "모델의 정확성을 보장하는 것은 신뢰할 수 있는 음성 경험에 매우 중요하며, 정확성이란 모델이 말하지 않은 콘텐츠를 추가하지 않고 발화된 단어를 정확히 포착하는 것을 의미합니다."

그러나 언어별로 성능이 다를 수 있습니다. OpenAI의 내부 벤치마크에 따르면, 두 모델 중 더 정확한 gpt-4o-transcribe는 타밀어, 텔루구어, 말라얄람어, 칸나다어와 같은 인도 및 드라비다 언어에 대해 "단어 오류율"이 약 30%에 달합니다. 이는 이 언어들에서 10개의 단어 중 약 3개가 인간 전사와 다를 수 있음을 나타냅니다.

OpenAI 전사 결과

OpenAI 전사 벤치마킹 결과. 이미지 제공: OpenAI

OpenAI는 평소와 달리 이 새로운 전사 모델들을 무료로 제공하지 않을 것입니다. 과거에는 새로운 Whisper 버전을 상업적 사용을 위해 MIT 라이선스 하에 공개했습니다. Harris는 gpt-4o-transcribe와 gpt-4o-mini-transcribe가 Whisper보다 훨씬 크기 때문에 공개 배포에 적합하지 않다고 지적했습니다.

"이 모델들은 Whisper처럼 일반 노트북에서 실행하기에는 너무 큽니다,"라고 Harris는 덧붙였습니다. "우리가 모델을 공개적으로 배포할 때는 특정 요구에 맞게 조정되었는지 신중히 고려하고 싶습니다. 우리는 최종 사용자 장치를 오픈소스 모델의 주요 영역으로 보고 있습니다."

2025년 3월 20일 오전 11:54 PT에 단어 오류율에 대한 언어를 명확히 하고 벤치마크 결과 차트를 더 최신 버전으로 업데이트했습니다.

관련 기사
Former OpenAI Engineer Shares Insights on Company Culture and Rapid Growth Former OpenAI Engineer Shares Insights on Company Culture and Rapid Growth 3주 전, OpenAI의 핵심 제품에 기여했던 엔지니어 Calvin French-Owen이 회사를 떠났습니다.그는 최근 OpenAI에서의 1년을 상세히 다룬 매력적인 블로그 포스트를 공유했으며, 여기에는 Cursor나 Anthropic의 Claude Code와 경쟁하는 코딩 에이전트 Codex 개발에 대한 강렬한 노력이 포함되어 있습니다.French-Owe
Google, 기업 시장에서 OpenAI와 경쟁하기 위해 생산 준비 완료된 Gemini 2.5 AI 모델 공개 Google, 기업 시장에서 OpenAI와 경쟁하기 위해 생산 준비 완료된 Gemini 2.5 AI 모델 공개 Google은 월요일 AI 전략을 강화하며 기업용으로 고급 Gemini 2.5 모델을 출시하고 가격과 성능 면에서 경쟁할 수 있는 비용 효율적인 변형 모델을 소개했습니다.Alphabet 소유의 이 회사는 주력 AI 모델인 Gemini 2.5 Pro와 Gemini 2.5 Flash를 테스트 단계에서 완전 가용성으로 업그레이드하며 중요한 비즈니스 애플리케이션에
메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인 메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인 메타는 새로운 슈퍼인텔리전스 연구소에 AI 연구자들을 유치하기 위해 수백만 달러 규모의 보상 패키지를 제공하고 있다. 그러나 모집된 연구자와 유출된 내부 회의 발언에 따르면 1억 달러 "서명 보너스" 주장은 사실이 아니다.더 버지(The Verge)가 목요일 보도한 유출된 회사 전체 회의에서 메타 경영진은 오픈AI CEO 샘 알트먼이 메타가 최고 연구자들에
의견 (31)
0/200
BenHernández
BenHernández 2025년 7월 23일 오후 5시 50분 48초 GMT+09:00

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor
GeorgeTaylor 2025년 4월 21일 오전 4시 57분 7초 GMT+09:00

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen
GregoryAllen 2025년 4월 17일 오후 1시 50분 37초 GMT+09:00

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen
StevenAllen 2025년 4월 17일 오후 1시 38분 26초 GMT+09:00

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark
NicholasClark 2025년 4월 16일 오후 2시 54분 41초 GMT+09:00

OpenAIの新しい音声認識と音声生成モデルは革命的です!ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります!🎙️💸

SamuelRoberts
SamuelRoberts 2025년 4월 16일 오전 6시 24분 36초 GMT+09:00

Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊

위로 돌아갑니다
OR