Openai는 아직 1 년 후 음성 복제 도구를 출시하지 않았습니다.
OpenAI의 보이스 엔진: 오랫동안 기다려온 출시?
지난 3월 말, OpenAI는 단 15초의 음성으로 사람의 목소리를 복제할 수 있는 AI 서비스인 보이스 엔진(Voice Engine)의 "소규모 미리보기"를 소개했습니다. 1년이 지난 지금, 이 도구는 여전히 미리보기 모드에 있으며, 정식 출시 일정은 명확하지 않습니다. 심지어 이 도구가 세상에 공개될 것인지도 확실하지 않습니다.
보이스 엔진을 광범위하게 출시하지 않는 망설임은 오용에 대한 우려나 규제 감시를 피하려는 시도에서 비롯된 것일 수 있습니다. OpenAI는 과거에 안전보다 화려한 제품을 우선시하고 경쟁사보다 먼저 시장에 출시하려고 서두른다는 비판을 받아왔습니다.
OpenAI 대변인은 TechCrunch에 회사가 "신뢰할 수 있는 파트너" 그룹과 함께 보이스 엔진을 테스트하고 있다고 밝혔습니다. 대변인은 "파트너들이 기술을 어떻게 활용하는지 배우면서 모델의 유용성과 안전성을 향상시키고 있습니다."라고 설명했습니다. "음성 치료, 언어 학습, 고객 지원, 비디오 게임 캐릭터, AI 아바타에 이르기까지 다양한 응용 사례를 보는 것은 흥미롭습니다."
보이스 엔진: 지금까지의 여정
보이스 엔진은 OpenAI의 텍스트-음성 변환 API와 ChatGPT의 보이스 모드에서 음성을 구현하며, 원래 화자의 목소리를 매우 자연스럽게 모방하는 음성을 생성합니다. 텍스트를 음성으로 변환하며, 특정 콘텐츠 가이드라인에만 제약을 받습니다. 하지만 출시는 처음부터 지연과 변동하는 출시 일정으로 어려움을 겪었습니다.
2024년 6월 블로그 포스트에서 OpenAI는 보이스 엔진 모델이 다양한 음성, 억양, 말하는 스타일을 고려하여 주어진 텍스트에 대해 화자가 어떤 소리를 낼지 예측하는 방법을 배운다고 자세히 설명했습니다. 이를 통해 모델은 텍스트에서 음성을 생성할 뿐만 아니라 다양한 화자가 텍스트를 소리 내어 말하는 방식을 반영한 "음성 발화"를 생성할 수 있습니다.
원래 보이스 엔진은 당시 커스텀 보이스(Custom Voices)로 불리며, TechCrunch가 본 초안 블로그 포스트에 따르면 2024년 3월 7일 OpenAI의 API에 추가될 예정이었습니다. 계획은 최대 100명의 "신뢰할 수 있는 개발자"에게 우선적으로 접근을 제공하며, 사회적 이익을 위한 앱을 개발하거나 기술의 혁신적이고 책임감 있는 사용을 보여주는 개발자를 우선시하는 것이었습니다. OpenAI는 이미 서비스를 상표 등록하고 "표준" 음성에 대해 백만 자당 15달러, "HD 품질" 음성에 대해 백만 자당 30달러로 가격을 책정했습니다.
하지만 마지막 순간에 발표가 연기되었습니다. 몇 주 후, OpenAI는 가입 옵션 없이 보이스 엔진을 공개하며, 2023년 말부터 협력해온 소규모 개발자 그룹으로 접근을 제한했습니다.
OpenAI는 2024년 3월 말 발표 블로그 포스트에서 "합성 음성의 책임 있는 배포와 사회가 이러한 새로운 기능에 어떻게 적응할 수 있는지에 대한 대화를 시작하고자 합니다."라고 밝혔습니다. "이러한 대화와 소규모 테스트 결과를 바탕으로, 우리는 이 기술을 대규모로 배포할지, 그리고 어떻게 배포할지에 대해 보다 정보에 입각한 결정을 내릴 것입니다."
긴 개발 여정
보이스 엔진은 2022년부터 개발 중이며, OpenAI는 2023년 여름에 글로벌 정책 입안자들에게 그 잠재력과 위험성을 보여주었습니다. 현재 여러 파트너가 보이스 엔진에 접근할 수 있으며, 그중에는 장애인을 보다 자연스럽게 소통할 수 있도록 돕는 스타트업 Livox도 포함됩니다. 하지만 Livox CEO 카를로스 페레이라(Carlos Pereira)는 보이스 엔진이 인터넷 연결을 요구하기 때문에 자사 제품에 통합할 수 없었다고 밝혔습니다. 이는 많은 고객이 인터넷에 접근할 수 없는 상황이기 때문입니다. 페레이라는 TechCrunch에 이메일로 "음성의 품질과 다양한 언어로 말할 수 있는 능력은 특히 장애가 있는 고객들에게 독특합니다."라고 말했습니다. "내가 본 음성 생성 도구 중 가장 인상적이고 사용하기 쉬운 도구입니다... OpenAI가 곧 오프라인 버전을 개발하기를 바랍니다."
페레이라는 OpenAI로부터 출시 날짜나 서비스 요금 부과 계획에 대한 어떠한 정보도 받지 못했으며, 현재까지 Livox는 사용료를 지불하지 않았습니다.
2024년 6월 포스트에서 OpenAI는 미국 선거 주기 동안 오용 가능성 때문에 보이스 엔진 출시를 연기한 이유 중 하나를 언급했습니다. 회사는 생성된 오디오의 출처를 추적하기 위한 워터마킹 같은 안전 조치를 구현했습니다. 개발자는 원래 화자로부터 "명시적 동의"를 얻어야 하며, 음성이 AI로 생성된 것임을 청중에 "명확히 공개"해야 합니다. 하지만 OpenAI는 이러한 정책이 대규모로 어떻게 집행될지에 대한 세부 사항을 밝히지 않았으며, 이는 큰 도전 과제가 될 수 있습니다.
OpenAI는 또한 화자를 검증하는 "음성 인증 경험"을 구축하고 저명한 인물의 음성을 생성하지 못하도록 하는 "금지 목록"을 만드는 계획을 암시했습니다. 이는 야심찬 프로젝트이며, 실수가 있다면 OpenAI의 안전 이니셔티브에 대한 평판에 추가적인 손상을 줄 수 있습니다.
효과적인 필터링과 신원 확인은 음성 복제 기술을 책임감 있게 출시하기 위해 점점 더 필수적입니다. AI 음성 복제는 2024년 세 번째로 빠르게 성장한 사기로, 사기와 은행 보안 점검 우회를 초래하며 개인정보 보호 및 저작권법이 이를 따라잡지 못하고 있습니다. 악의적인 행위자들은 음성 복제를 사용해 유명인과 정치인의 딥페이크를 만들어 소셜 미디어에서 빠르게 퍼뜨렸습니다.
OpenAI는 다음 주에 보이스 엔진을 출시할 수도 있고, 영원히 출시하지 않을 수도 있습니다. 회사는 서비스를 소규모로 유지하는 것을 고려하고 있다고 언급했습니다. 하지만 한 가지는 확실합니다. 광학적 이유든, 안전 때문이든, 아니면 둘 다 때문이든, 보이스 엔진의 제한된 미리보기는 OpenAI 역사상 가장 긴 미리보기 중 하나가 되었습니다.
관련 기사
Oracle의 400억 달러 Nvidia 칩 투자로 텍사스 AI 데이터센터 강화
Oracle은 Financial Times에 따르면 OpenAI가 개발한 텍사스 주요 신규 데이터센터를 지원하기 위해 Nvidia 칩에 약 400억 달러를 투자할 예정입니다. 이는 지금까지 가장 큰 칩 인수 거래 중 하나로, AI 컴퓨팅 자원에 대한 급증하는 수요를 보여줍니다.텍사스 애빌린에 위치한 이 시설은 미국 최초의 “Stargate” 데이터센터입니다
소프트뱅크, 일본 AI 데이터센터를 위해 6억7600만 달러 샤프 공장 인수
소프트뱅크는 독립적으로 그리고 OpenAI와의 파트너십을 통해 일본에 주요 AI 허브를 설립하려는 목표를 추진하고 있다. 이 기술 대기업은 금요일, 6억7600만 달러를 투자해 샤프의 LCD 패널 공장을 인수해 AI 데이터센터로 전환한다고 확인했다.소프트뱅크와 샤프의 거래에는 오사카의 사카이 공장의 토지와 건물이 포함되며, 1000억 엔(6억7600만 달러
Adobe와 Figma가 OpenAI의 고급 이미지 생성 모델 통합
OpenAI의 ChatGPT에서 향상된 이미지 생성 기능은 스튜디오 지브리 스타일의 비주얼과 독특한 디자인을 생성하는 능력으로 사용자 급증을 이끌었으며, 이제 다른 플랫폼으로 확장되고 있습니다. 회사는 블로그 포스트에 따르면 이 기능을 지원하는 “네이티브 멀티모달 모델”이 API를 통해 “gpt-image-1”로 제공될 것이며, 주요 기업들이 이미 이를 채
의견 (11)
0/200
FredLewis
2025년 8월 3일 오전 12시 7분 14초 GMT+09:00
Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬
0
PaulBrown
2025년 4월 23일 오후 6시 20분 58초 GMT+09:00
1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。
0
TimothyMiller
2025년 4월 23일 오후 3시 50분 47초 GMT+09:00
等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。
0
SamuelRoberts
2025년 4월 23일 오전 10시 46분 4초 GMT+09:00
Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.
0
WillMitchell
2025년 4월 22일 오후 3시 48분 14초 GMT+09:00
Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.
0
JamesWilliams
2025년 4월 22일 오전 11시 55분 40초 GMT+09:00
A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.
0
OpenAI의 보이스 엔진: 오랫동안 기다려온 출시?
지난 3월 말, OpenAI는 단 15초의 음성으로 사람의 목소리를 복제할 수 있는 AI 서비스인 보이스 엔진(Voice Engine)의 "소규모 미리보기"를 소개했습니다. 1년이 지난 지금, 이 도구는 여전히 미리보기 모드에 있으며, 정식 출시 일정은 명확하지 않습니다. 심지어 이 도구가 세상에 공개될 것인지도 확실하지 않습니다.
보이스 엔진을 광범위하게 출시하지 않는 망설임은 오용에 대한 우려나 규제 감시를 피하려는 시도에서 비롯된 것일 수 있습니다. OpenAI는 과거에 안전보다 화려한 제품을 우선시하고 경쟁사보다 먼저 시장에 출시하려고 서두른다는 비판을 받아왔습니다.
OpenAI 대변인은 TechCrunch에 회사가 "신뢰할 수 있는 파트너" 그룹과 함께 보이스 엔진을 테스트하고 있다고 밝혔습니다. 대변인은 "파트너들이 기술을 어떻게 활용하는지 배우면서 모델의 유용성과 안전성을 향상시키고 있습니다."라고 설명했습니다. "음성 치료, 언어 학습, 고객 지원, 비디오 게임 캐릭터, AI 아바타에 이르기까지 다양한 응용 사례를 보는 것은 흥미롭습니다."
보이스 엔진: 지금까지의 여정
보이스 엔진은 OpenAI의 텍스트-음성 변환 API와 ChatGPT의 보이스 모드에서 음성을 구현하며, 원래 화자의 목소리를 매우 자연스럽게 모방하는 음성을 생성합니다. 텍스트를 음성으로 변환하며, 특정 콘텐츠 가이드라인에만 제약을 받습니다. 하지만 출시는 처음부터 지연과 변동하는 출시 일정으로 어려움을 겪었습니다.
2024년 6월 블로그 포스트에서 OpenAI는 보이스 엔진 모델이 다양한 음성, 억양, 말하는 스타일을 고려하여 주어진 텍스트에 대해 화자가 어떤 소리를 낼지 예측하는 방법을 배운다고 자세히 설명했습니다. 이를 통해 모델은 텍스트에서 음성을 생성할 뿐만 아니라 다양한 화자가 텍스트를 소리 내어 말하는 방식을 반영한 "음성 발화"를 생성할 수 있습니다.
원래 보이스 엔진은 당시 커스텀 보이스(Custom Voices)로 불리며, TechCrunch가 본 초안 블로그 포스트에 따르면 2024년 3월 7일 OpenAI의 API에 추가될 예정이었습니다. 계획은 최대 100명의 "신뢰할 수 있는 개발자"에게 우선적으로 접근을 제공하며, 사회적 이익을 위한 앱을 개발하거나 기술의 혁신적이고 책임감 있는 사용을 보여주는 개발자를 우선시하는 것이었습니다. OpenAI는 이미 서비스를 상표 등록하고 "표준" 음성에 대해 백만 자당 15달러, "HD 품질" 음성에 대해 백만 자당 30달러로 가격을 책정했습니다.
하지만 마지막 순간에 발표가 연기되었습니다. 몇 주 후, OpenAI는 가입 옵션 없이 보이스 엔진을 공개하며, 2023년 말부터 협력해온 소규모 개발자 그룹으로 접근을 제한했습니다.
OpenAI는 2024년 3월 말 발표 블로그 포스트에서 "합성 음성의 책임 있는 배포와 사회가 이러한 새로운 기능에 어떻게 적응할 수 있는지에 대한 대화를 시작하고자 합니다."라고 밝혔습니다. "이러한 대화와 소규모 테스트 결과를 바탕으로, 우리는 이 기술을 대규모로 배포할지, 그리고 어떻게 배포할지에 대해 보다 정보에 입각한 결정을 내릴 것입니다."
긴 개발 여정
보이스 엔진은 2022년부터 개발 중이며, OpenAI는 2023년 여름에 글로벌 정책 입안자들에게 그 잠재력과 위험성을 보여주었습니다. 현재 여러 파트너가 보이스 엔진에 접근할 수 있으며, 그중에는 장애인을 보다 자연스럽게 소통할 수 있도록 돕는 스타트업 Livox도 포함됩니다. 하지만 Livox CEO 카를로스 페레이라(Carlos Pereira)는 보이스 엔진이 인터넷 연결을 요구하기 때문에 자사 제품에 통합할 수 없었다고 밝혔습니다. 이는 많은 고객이 인터넷에 접근할 수 없는 상황이기 때문입니다. 페레이라는 TechCrunch에 이메일로 "음성의 품질과 다양한 언어로 말할 수 있는 능력은 특히 장애가 있는 고객들에게 독특합니다."라고 말했습니다. "내가 본 음성 생성 도구 중 가장 인상적이고 사용하기 쉬운 도구입니다... OpenAI가 곧 오프라인 버전을 개발하기를 바랍니다."
페레이라는 OpenAI로부터 출시 날짜나 서비스 요금 부과 계획에 대한 어떠한 정보도 받지 못했으며, 현재까지 Livox는 사용료를 지불하지 않았습니다.
2024년 6월 포스트에서 OpenAI는 미국 선거 주기 동안 오용 가능성 때문에 보이스 엔진 출시를 연기한 이유 중 하나를 언급했습니다. 회사는 생성된 오디오의 출처를 추적하기 위한 워터마킹 같은 안전 조치를 구현했습니다. 개발자는 원래 화자로부터 "명시적 동의"를 얻어야 하며, 음성이 AI로 생성된 것임을 청중에 "명확히 공개"해야 합니다. 하지만 OpenAI는 이러한 정책이 대규모로 어떻게 집행될지에 대한 세부 사항을 밝히지 않았으며, 이는 큰 도전 과제가 될 수 있습니다.
OpenAI는 또한 화자를 검증하는 "음성 인증 경험"을 구축하고 저명한 인물의 음성을 생성하지 못하도록 하는 "금지 목록"을 만드는 계획을 암시했습니다. 이는 야심찬 프로젝트이며, 실수가 있다면 OpenAI의 안전 이니셔티브에 대한 평판에 추가적인 손상을 줄 수 있습니다.
효과적인 필터링과 신원 확인은 음성 복제 기술을 책임감 있게 출시하기 위해 점점 더 필수적입니다. AI 음성 복제는 2024년 세 번째로 빠르게 성장한 사기로, 사기와 은행 보안 점검 우회를 초래하며 개인정보 보호 및 저작권법이 이를 따라잡지 못하고 있습니다. 악의적인 행위자들은 음성 복제를 사용해 유명인과 정치인의 딥페이크를 만들어 소셜 미디어에서 빠르게 퍼뜨렸습니다.
OpenAI는 다음 주에 보이스 엔진을 출시할 수도 있고, 영원히 출시하지 않을 수도 있습니다. 회사는 서비스를 소규모로 유지하는 것을 고려하고 있다고 언급했습니다. 하지만 한 가지는 확실합니다. 광학적 이유든, 안전 때문이든, 아니면 둘 다 때문이든, 보이스 엔진의 제한된 미리보기는 OpenAI 역사상 가장 긴 미리보기 중 하나가 되었습니다.


Why's OpenAI dragging their feet on Voice Engine? A year later and still just a preview? Sounds like they're scared of the ethical mess this could stir up. 😬




1年経っても、まだOpenAIの音声クローンツールはプレビュー状態です。残念ですが、もしリリースされればとても興味深いですね。




等了整整一年,OpenAI的语音克隆工具还是没出来,真是让人失望啊。不过听说功能很强大,希望能早日上线吧。




Um ano depois e a ferramenta de clonagem de voz do OpenAI ainda está em fase de teste. É frustrante, mas se lançarem, será algo incrível.




Lleva un año y todavía no han lanzado la herramienta de clonación de voz de OpenAI. Es una lástima, pero si llega a salir, será impresionante.




A year later and OpenAI's voice cloning tool is still in preview. It’s a bummer, but the potential is huge if they ever release it.












