OpenAI는 전사 및 음성 생성 AI 모델을 업그레이드합니다

집

뉴스

2025년 4월 10일

CharlesWhite

146

# openai # api

OpenAI는 API를 통해 전사 및 음성 생성을 위한 새로운 AI 모델을 출시하고 있으며, 이전 버전에 비해 상당한 개선을 약속하고 있습니다. 이러한 업데이트는 사용자를 위해 독립적으로 작업을 수행할 수 있는 자율 시스템을 만드는 데 초점을 맞춘 OpenAI의 더 큰 "agentic" 비전의 일부입니다. "agent"라는 용어는 논쟁의 여지가 있을 수 있지만, OpenAI의 제품 책임자인 Olivier Godement는 이를 비즈니스 고객과 상호작용할 수 있는 챗봇으로 보고 있습니다.

"앞으로 몇 달 안에 점점 더 많은 에이전트가 등장할 것입니다,"라고 Godement는 TechCrunch와의 브리핑에서 공유했습니다. "전반적인 목표는 고객과 개발자가 유용하고 접근 가능하며 정확한 에이전트를 활용할 수 있도록 지원하는 것입니다."

OpenAI의 최신 텍스트-음성 변환 모델인 "gpt-4o-mini-tts"는 더 생생하고 미묘한 음성을 생성할 뿐만 아니라 이전 모델보다 더 적응력이 뛰어납니다. 이제 개발자는 "미친 과학자처럼 말해" 또는 "마음 챙김 교사처럼 차분한 목소리를 사용해"와 같은 자연어 명령을 통해 모델을 안내할 수 있습니다. 이러한 제어 수준은 더 개인화된 음성 경험을 가능하게 합니다.

다음은 "진범죄 스타일"의 거친 목소리 샘플입니다:

그리고 다음은 여성 "전문가" 목소리의 예입니다:

OpenAI의 제품 팀원인 Jeff Harris는 TechCrunch에 개발자가 음성 "경험"과 "맥락"을 모두 사용자 정의할 수 있도록 하는 것이 목표라고 강조했습니다. "다양한 시나리오에서 단조로운 목소리를 원하지 않습니다,"라고 Harris는 설명했습니다. "예를 들어, 고객 지원 환경에서 실수에 대해 사과하는 목소리가 필요할 때, 그 감정을 목소리에 주입할 수 있습니다. 우리는 개발자와 사용자가 콘텐츠뿐만 아니라 말하는 방식도 제어하고 싶어한다고 강하게 믿습니다."

OpenAI의 새로운 음성-텍스트 변환 제공물인 "gpt-4o-transcribe"와 "gpt-4o-mini-transcribe"는 구형 Whisper 전사 모델을 대체할 예정입니다. 다양한 고품질 오디오 데이터로 훈련된 이 모델들은 억양이 있거나 다양한 음성을 더 잘 처리하며, 소음이 많은 환경에서도 더 나은 성능을 보입니다. 또한, 이 모델들은 Whisper가 때때로 단어나 전체 구절을 만들어내어 인종적 논평이나 가상의 의료 치료와 같은 부정확성을 전사에 추가하는 "환각" 문제에 덜 취약합니다.

"이 모델들은 이 점에서 Whisper에 비해 상당한 개선을 보입니다,"라고 Harris는 언급했습니다. "모델의 정확성을 보장하는 것은 신뢰할 수 있는 음성 경험에 매우 중요하며, 정확성이란 모델이 말하지 않은 콘텐츠를 추가하지 않고 발화된 단어를 정확히 포착하는 것을 의미합니다."

그러나 언어별로 성능이 다를 수 있습니다. OpenAI의 내부 벤치마크에 따르면, 두 모델 중 더 정확한 gpt-4o-transcribe는 타밀어, 텔루구어, 말라얄람어, 칸나다어와 같은 인도 및 드라비다 언어에 대해 "단어 오류율"이 약 30%에 달합니다. 이는 이 언어들에서 10개의 단어 중 약 3개가 인간 전사와 다를 수 있음을 나타냅니다.

OpenAI 전사 결과

OpenAI 전사 벤치마킹 결과. 이미지 제공: OpenAI

OpenAI는 평소와 달리 이 새로운 전사 모델들을 무료로 제공하지 않을 것입니다. 과거에는 새로운 Whisper 버전을 상업적 사용을 위해 MIT 라이선스 하에 공개했습니다. Harris는 gpt-4o-transcribe와 gpt-4o-mini-transcribe가 Whisper보다 훨씬 크기 때문에 공개 배포에 적합하지 않다고 지적했습니다.

"이 모델들은 Whisper처럼 일반 노트북에서 실행하기에는 너무 큽니다,"라고 Harris는 덧붙였습니다. "우리가 모델을 공개적으로 배포할 때는 특정 요구에 맞게 조정되었는지 신중히 고려하고 싶습니다. 우리는 최종 사용자 장치를 오픈소스 모델의 주요 영역으로 보고 있습니다."

2025년 3월 20일 오전 11:54 PT에 단어 오류율에 대한 언어를 명확히 하고 벤치마크 결과 차트를 더 최신 버전으로 업데이트했습니다.

관련 기사

OpenAI, ChatGPT Pro를 o3로 업그레이드하고 월 구독료 $200로 가치 증대 이번 주에는 마이크로소프트, 구글, 앤트로픽을 비롯한 거대 기술 기업들의 중요한 AI 개발이 있었습니다. OpenAI는 코드명 "io"라는 야심찬 하드웨어 이니셔티브를 위해 65억 달러에 인수한 조니 아이브의 디자인 회사를 넘어서는 획기적인 업데이트를 발표하며 활발한 발표를 마무리했습니다.이 회사는 이전의 GPT-4o 프레임워크에서 고급 추론 모델인 o3로

AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 주요 기술 기업들이 AI '에이전트'를 기업의 생산성을 높여주는 도구로 홍보하는 가운데, 한 비영리 단체는 사회적 공익을 위한 AI의 잠재력을 입증하고 있습니다. 오픈 필란트로피의 지원을 받는 자선 연구 단체인 세이지 퓨처는 최근 AI 모델이 자선 기금 모금에 어떻게 협력할 수 있는지 보여주는 혁신적인 실험을 진행했습니다.이 비영리 단체는 자선 단체를

최고의 AI 연구소, 인류가 AI 시스템에 대한 이해력을 잃어가고 있다고 경고하다 전례 없는 단결력을 보여준 OpenAI, Google DeepMind, Anthropic, Meta의 연구원들은 경쟁적 차이를 제쳐두고 책임감 있는 AI 개발에 대한 공동의 경고를 발표했습니다. 일반적으로 라이벌 관계에 있는 이들 조직의 40여 명의 선도적인 과학자들은 AI 의사결정 과정의 투명성을 보장하기 위해 빠르게 닫혀가는 창을 강조하는 획기적인 연구

의견 (32)

0/200

제출하다

FrankMartínez

2025년 8월 19일 오후 5시 1분 39초 GMT+09:00

The new OpenAI models sound like a game-changer for voice tech! Can't wait to see how devs use this to make apps talk smoother than ever. 😎

BenHernández

2025년 7월 23일 오후 5시 50분 48초 GMT+09:00

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor

2025년 4월 21일 오전 4시 57분 7초 GMT+09:00

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen

2025년 4월 17일 오후 1시 50분 37초 GMT+09:00

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen

2025년 4월 17일 오후 1시 38분 26초 GMT+09:00

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark

2025년 4월 16일 오후 2시 54분 41초 GMT+09:00

OpenAIの新しい音声認識と音声生成モデルは革命的です！ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります！🎙️💸

최고의 뉴스

Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 AI 목소리: 현실적인 목소리 제작 궁극 가이드 Cambium의 AI는 폐기물을 목재로 변형시킵니다 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 AI 통합에 데이터가 신뢰할 수 있는지 확인하는 방법 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다 미국에 대한 조정은 76GW의 새로운 전력 용량을 잠금 해제 할 수 있습니다. Google은 AI를 사용하여 사기의 의심에 대한 3,900 만 광고 계정을 중단합니다. AI 보이스 클로닝: 음성 변환 마스터 가이드

더