옵션
뉴스
Openai는 아직 1 년 후 음성 복제 도구를 출시하지 않았습니다.

Openai는 아직 1 년 후 음성 복제 도구를 출시하지 않았습니다.

2025년 4월 21일
93

OpenAI의 보이스 엔진: 오랫동안 기다려온 출시?

지난 3월 말, OpenAI는 단 15초의 음성으로 사람의 목소리를 복제할 수 있는 AI 서비스인 보이스 엔진(Voice Engine)의 "소규모 미리보기"를 소개했습니다. 1년이 지난 지금, 이 도구는 여전히 미리보기 모드에 있으며, 정식 출시 일정은 명확하지 않습니다. 심지어 이 도구가 세상에 공개될 것인지도 확실하지 않습니다.

보이스 엔진을 광범위하게 출시하지 않는 망설임은 오용에 대한 우려나 규제 감시를 피하려는 시도에서 비롯된 것일 수 있습니다. OpenAI는 과거에 안전보다 화려한 제품을 우선시하고 경쟁사보다 먼저 시장에 출시하려고 서두른다는 비판을 받아왔습니다.

OpenAI 대변인은 TechCrunch에 회사가 "신뢰할 수 있는 파트너" 그룹과 함께 보이스 엔진을 테스트하고 있다고 밝혔습니다. 대변인은 "파트너들이 기술을 어떻게 활용하는지 배우면서 모델의 유용성과 안전성을 향상시키고 있습니다."라고 설명했습니다. "음성 치료, 언어 학습, 고객 지원, 비디오 게임 캐릭터, AI 아바타에 이르기까지 다양한 응용 사례를 보는 것은 흥미롭습니다."

보이스 엔진: 지금까지의 여정

보이스 엔진은 OpenAI의 텍스트-음성 변환 API와 ChatGPT의 보이스 모드에서 음성을 구현하며, 원래 화자의 목소리를 매우 자연스럽게 모방하는 음성을 생성합니다. 텍스트를 음성으로 변환하며, 특정 콘텐츠 가이드라인에만 제약을 받습니다. 하지만 출시는 처음부터 지연과 변동하는 출시 일정으로 어려움을 겪었습니다.

2024년 6월 블로그 포스트에서 OpenAI는 보이스 엔진 모델이 다양한 음성, 억양, 말하는 스타일을 고려하여 주어진 텍스트에 대해 화자가 어떤 소리를 낼지 예측하는 방법을 배운다고 자세히 설명했습니다. 이를 통해 모델은 텍스트에서 음성을 생성할 뿐만 아니라 다양한 화자가 텍스트를 소리 내어 말하는 방식을 반영한 "음성 발화"를 생성할 수 있습니다.

원래 보이스 엔진은 당시 커스텀 보이스(Custom Voices)로 불리며, TechCrunch가 본 초안 블로그 포스트에 따르면 2024년 3월 7일 OpenAI의 API에 추가될 예정이었습니다. 계획은 최대 100명의 "신뢰할 수 있는 개발자"에게 우선적으로 접근을 제공하며, 사회적 이익을 위한 앱을 개발하거나 기술의 혁신적이고 책임감 있는 사용을 보여주는 개발자를 우선시하는 것이었습니다. OpenAI는 이미 서비스를 상표 등록하고 "표준" 음성에 대해 백만 자당 15달러, "HD 품질" 음성에 대해 백만 자당 30달러로 가격을 책정했습니다.

하지만 마지막 순간에 발표가 연기되었습니다. 몇 주 후, OpenAI는 가입 옵션 없이 보이스 엔진을 공개하며, 2023년 말부터 협력해온 소규모 개발자 그룹으로 접근을 제한했습니다.

OpenAI는 2024년 3월 말 발표 블로그 포스트에서 "합성 음성의 책임 있는 배포와 사회가 이러한 새로운 기능에 어떻게 적응할 수 있는지에 대한 대화를 시작하고자 합니다."라고 밝혔습니다. "이러한 대화와 소규모 테스트 결과를 바탕으로, 우리는 이 기술을 대규모로 배포할지, 그리고 어떻게 배포할지에 대해 보다 정보에 입각한 결정을 내릴 것입니다."

긴 개발 여정

보이스 엔진은 2022년부터 개발 중이며, OpenAI는 2023년 여름에 글로벌 정책 입안자들에게 그 잠재력과 위험성을 보여주었습니다. 현재 여러 파트너가 보이스 엔진에 접근할 수 있으며, 그중에는 장애인을 보다 자연스럽게 소통할 수 있도록 돕는 스타트업 Livox도 포함됩니다. 하지만 Livox CEO 카를로스 페레이라(Carlos Pereira)는 보이스 엔진이 인터넷 연결을 요구하기 때문에 자사 제품에 통합할 수 없었다고 밝혔습니다. 이는 많은 고객이 인터넷에 접근할 수 없는 상황이기 때문입니다. 페레이라는 TechCrunch에 이메일로 "음성의 품질과 다양한 언어로 말할 수 있는 능력은 특히 장애가 있는 고객들에게 독특합니다."라고 말했습니다. "내가 본 음성 생성 도구 중 가장 인상적이고 사용하기 쉬운 도구입니다... OpenAI가 곧 오프라인 버전을 개발하기를 바랍니다."

페레이라는 OpenAI로부터 출시 날짜나 서비스 요금 부과 계획에 대한 어떠한 정보도 받지 못했으며, 현재까지 Livox는 사용료를 지불하지 않았습니다.

2024년 6월 포스트에서 OpenAI는 미국 선거 주기 동안 오용 가능성 때문에 보이스 엔진 출시를 연기한 이유 중 하나를 언급했습니다. 회사는 생성된 오디오의 출처를 추적하기 위한 워터마킹 같은 안전 조치를 구현했습니다. 개발자는 원래 화자로부터 "명시적 동의"를 얻어야 하며, 음성이 AI로 생성된 것임을 청중에 "명확히 공개"해야 합니다. 하지만 OpenAI는 이러한 정책이 대규모로 어떻게 집행될지에 대한 세부 사항을 밝히지 않았으며, 이는 큰 도전 과제가 될 수 있습니다.

OpenAI는 또한 화자를 검증하는 "음성 인증 경험"을 구축하고 저명한 인물의 음성을 생성하지 못하도록 하는 "금지 목록"을 만드는 계획을 암시했습니다. 이는 야심찬 프로젝트이며, 실수가 있다면 OpenAI의 안전 이니셔티브에 대한 평판에 추가적인 손상을 줄 수 있습니다.

효과적인 필터링과 신원 확인은 음성 복제 기술을 책임감 있게 출시하기 위해 점점 더 필수적입니다. AI 음성 복제는 2024년 세 번째로 빠르게 성장한 사기로, 사기와 은행 보안 점검 우회를 초래하며 개인정보 보호 및 저작권법이 이를 따라잡지 못하고 있습니다. 악의적인 행위자들은 음성 복제를 사용해 유명인과 정치인의 딥페이크를 만들어 소셜 미디어에서 빠르게 퍼뜨렸습니다.

OpenAI는 다음 주에 보이스 엔진을 출시할 수도 있고, 영원히 출시하지 않을 수도 있습니다. 회사는 서비스를 소규모로 유지하는 것을 고려하고 있다고 언급했습니다. 하지만 한 가지는 확실합니다. 광학적 이유든, 안전 때문이든, 아니면 둘 다 때문이든, 보이스 엔진의 제한된 미리보기는 OpenAI 역사상 가장 긴 미리보기 중 하나가 되었습니다.

관련 기사
추론 전쟁 속에서 70%의 마진이 면밀히 조사되면서 엔비디아의 AI 과대 광고가 현실과 만났습니다. 추론 전쟁 속에서 70%의 마진이 면밀히 조사되면서 엔비디아의 AI 과대 광고가 현실과 만났습니다. VB 트랜스폼 2025에서 벌어지는 AI 칩 전쟁VB 트랜스폼 2025의 열띤 패널 토론에서 떠오르는 도전자들이 엔비디아의 지배적인 시장 지위를 직접 겨냥하면서 전선이 그려졌습니다. 핵심 질문은 눈에 띄는 모순을 드러냈습니다: 어떻게 AI 추론이 상품화된 '공장'으로 묘사되는 동시에 70%의 막대한 총 마진을 제공할 수 있을까요?도전자들의 발언Gro
OpenAI, ChatGPT Pro를 o3로 업그레이드하고 월 구독료 $200로 가치 증대 OpenAI, ChatGPT Pro를 o3로 업그레이드하고 월 구독료 $200로 가치 증대 이번 주에는 마이크로소프트, 구글, 앤트로픽을 비롯한 거대 기술 기업들의 중요한 AI 개발이 있었습니다. OpenAI는 코드명 "io"라는 야심찬 하드웨어 이니셔티브를 위해 65억 달러에 인수한 조니 아이브의 디자인 회사를 넘어서는 획기적인 업데이트를 발표하며 활발한 발표를 마무리했습니다.이 회사는 이전의 GPT-4o 프레임워크에서 고급 추론 모델인 o3로
AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 주요 기술 기업들이 AI '에이전트'를 기업의 생산성을 높여주는 도구로 홍보하는 가운데, 한 비영리 단체는 사회적 공익을 위한 AI의 잠재력을 입증하고 있습니다. 오픈 필란트로피의 지원을 받는 자선 연구 단체인 세이지 퓨처는 최근 AI 모델이 자선 기금 모금에 어떻게 협력할 수 있는지 보여주는 혁신적인 실험을 진행했습니다.이 비영리 단체는 자선 단체를
의견 (11)
0/200
FredLewis
FredLewis 2025년 8월 3일 오전 12시 7분 14초 GMT+09:00

Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬

PaulBrown
PaulBrown 2025년 4월 23일 오후 6시 20분 58초 GMT+09:00

1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。

TimothyMiller
TimothyMiller 2025년 4월 23일 오후 3시 50분 47초 GMT+09:00

等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。

SamuelRoberts
SamuelRoberts 2025년 4월 23일 오전 10시 46분 4초 GMT+09:00

Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.

WillMitchell
WillMitchell 2025년 4월 22일 오후 3시 48분 14초 GMT+09:00

Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.

JamesWilliams
JamesWilliams 2025년 4월 22일 오전 11시 55분 40초 GMT+09:00

A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.

위로 돌아갑니다
OR