샤오미의 오픈소스 TTS 모델 ‘OmniVoice’는 600개 이상의 언어에서 제로샷 복제를 지원한다
최근 샤오미의 차세대 Kaldi 팀(k2-fsa)은 600개 이상의 언어를 지원하는 대규모 다국어 제로샷 텍스트-투-스피치 모델인 ‘OmniVoice’를 공식적으로 오픈소스로 공개했습니다. 이 모델은 중국어, 영어 및 다국어 합성 분야의 여러 주요 벤치마크에서 최첨단 성능을 달성하며, 해당 분야에 획기적인 돌파구를 마련했습니다.
선도적인 성능: 중국어 WER 0.84% 달성, 다국어 테스트에서 주류 모델들 제치다
Seed-TTS 중국어 테스트 세트에서 OmniVoice는 0.84%라는 놀라울 정도로 낮은 단어 오류율(WER)을 기록했습니다. 다국어 평가에서는 유사도(SIM-o) 및 WER 점수가 ElevenLabs v2, MiniMax와 같은 유명 상용 모델들을 능가하며, 탁월한 음성 자연도와 명료성을 입증했습니다.

초고속 추론: RTF 0.025초로, 실시간보다 40배 빠름
OmniVoice는 0.025에 불과한 실시간 계수(RTF)를 자랑하며, 이는 합성 속도가 실시간 요구 사항을 훨씬 뛰어넘는다는 것을 의미합니다. 이러한 획기적인 효율성 향상으로 실제 응용 분야에서 긴 형식의 음성을 신속하게 생성할 수 있어 사용자 경험을 크게 향상시킵니다.
핵심 아키텍처 혁신: 확산 모델에서 영감을 받은 이산 비자기회귀 설계
OmniVoice는 확산 언어 모델에서 영감을 받은 새로운 이산 비자율 회귀 아키텍처를 채택했습니다. 이 모델은 기존의 중간 의미 토큰 단계를 생략하고 단일 단계에서 텍스트를 음성으로 직접 생성합니다. 이러한 간소화된 설계는 높은 출력 품질을 유지하면서도 파이프라인을 단순화합니다. 사전 훈련된 LLM 초기화와 결합된 전체 코드북 무작위 마스킹 전략은 훈련 효율을 더욱 높이고 최종 음성의 명료성과 이해도를 향상시킵니다.
유연한 음성 복제 및 맞춤 설정: 단 3~10초의 오디오만으로 작동
이 모델은 단 3~10초 분량의 참조 오디오만으로도 고품질의 제로샷 음성 복제를 지원합니다. 또한 사용자는 자연어 프롬프트를 통해 성별, 연령, 음높이, 억양, 방언은 물론 속삭임과 같은 특수 효과까지 지정하여 음성 속성을 맞춤 설정할 수 있습니다.
비언어적 기호 처리 및 세밀한 발음 제어
OmniVoice는 [웃음]과 같은 비언어적 기호를 처리할 수 있으며, 병음이나 발음 기호를 통한 발음 교정을 지원합니다. 이로 인해 중국어 및 다양한 방언의 정밀한 합성에 특히 적합합니다.
600개 이상의 언어 지원: 소수 언어 및 멸종 위기 언어의 디지털 보존 지원
OmniVoice의 주요 특징은 광범위한 언어 지원으로, 주요 언어와 수많은 저자원 언어를 모두 효율적으로 지원합니다. 소수 언어 및 멸종 위기 언어의 경우, 최소한의 데이터 샘플로도 고품질 음성을 생성할 수 있어 디지털 언어 보존 및 문화 보호에 큰 잠재력을 제공합니다.
OmniVoice의 소스 코드와 사전 훈련된 모델은 현재 GitHub 및 Hugging Face에 오픈소스로 공개되어 있어, 개발자들이 로컬에 배포하거나 애플리케이션에 통합할 수 있습니다. AIbase는 커뮤니티의 피드백과 실제 사용 사례를 지속적으로 모니터링할 예정입니다. 개발자 여러분의 경험 공유를 환영합니다.
프로젝트 링크: https://github.com/k2-fsa/OmniVoice
관련 기사
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
중국 사이버공간관리국은 AI가 생성한 영상과 허구적인 숏폼 영상에 태그를 달도록 의무화했다
중국 사이버공간관리국은 숏폼 동영상 콘텐츠 표기를 표준화하기 위한 포괄적인 계획을 발표했으며, 플랫폼들이 “AI 생성 콘텐츠”를 포함한 6가지 필수 태그를 제공하도록 의무화함으로써 숏폼 동영상 규제에 있어 투명성 확보가 필수적인 새로운 시대를 열었다.콘텐츠 출처가 불분명하거나 사실과 허구를 구분하기 어려운 문제 등을 해결하기 위해, 규제 당국은 도우인(Do
텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다
텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API
관련 특별 주제 추천
의견 (0)
0/500
최근 샤오미의 차세대 Kaldi 팀(k2-fsa)은 600개 이상의 언어를 지원하는 대규모 다국어 제로샷 텍스트-투-스피치 모델인 ‘OmniVoice’를 공식적으로 오픈소스로 공개했습니다. 이 모델은 중국어, 영어 및 다국어 합성 분야의 여러 주요 벤치마크에서 최첨단 성능을 달성하며, 해당 분야에 획기적인 돌파구를 마련했습니다.
선도적인 성능: 중국어 WER 0.84% 달성, 다국어 테스트에서 주류 모델들 제치다
Seed-TTS 중국어 테스트 세트에서 OmniVoice는 0.84%라는 놀라울 정도로 낮은 단어 오류율(WER)을 기록했습니다. 다국어 평가에서는 유사도(SIM-o) 및 WER 점수가 ElevenLabs v2, MiniMax와 같은 유명 상용 모델들을 능가하며, 탁월한 음성 자연도와 명료성을 입증했습니다.

초고속 추론: RTF 0.025초로, 실시간보다 40배 빠름
OmniVoice는 0.025에 불과한 실시간 계수(RTF)를 자랑하며, 이는 합성 속도가 실시간 요구 사항을 훨씬 뛰어넘는다는 것을 의미합니다. 이러한 획기적인 효율성 향상으로 실제 응용 분야에서 긴 형식의 음성을 신속하게 생성할 수 있어 사용자 경험을 크게 향상시킵니다.
핵심 아키텍처 혁신: 확산 모델에서 영감을 받은 이산 비자기회귀 설계
OmniVoice는 확산 언어 모델에서 영감을 받은 새로운 이산 비자율 회귀 아키텍처를 채택했습니다. 이 모델은 기존의 중간 의미 토큰 단계를 생략하고 단일 단계에서 텍스트를 음성으로 직접 생성합니다. 이러한 간소화된 설계는 높은 출력 품질을 유지하면서도 파이프라인을 단순화합니다. 사전 훈련된 LLM 초기화와 결합된 전체 코드북 무작위 마스킹 전략은 훈련 효율을 더욱 높이고 최종 음성의 명료성과 이해도를 향상시킵니다.
유연한 음성 복제 및 맞춤 설정: 단 3~10초의 오디오만으로 작동
이 모델은 단 3~10초 분량의 참조 오디오만으로도 고품질의 제로샷 음성 복제를 지원합니다. 또한 사용자는 자연어 프롬프트를 통해 성별, 연령, 음높이, 억양, 방언은 물론 속삭임과 같은 특수 효과까지 지정하여 음성 속성을 맞춤 설정할 수 있습니다.
비언어적 기호 처리 및 세밀한 발음 제어
OmniVoice는 [웃음]과 같은 비언어적 기호를 처리할 수 있으며, 병음이나 발음 기호를 통한 발음 교정을 지원합니다. 이로 인해 중국어 및 다양한 방언의 정밀한 합성에 특히 적합합니다.
600개 이상의 언어 지원: 소수 언어 및 멸종 위기 언어의 디지털 보존 지원
OmniVoice의 주요 특징은 광범위한 언어 지원으로, 주요 언어와 수많은 저자원 언어를 모두 효율적으로 지원합니다. 소수 언어 및 멸종 위기 언어의 경우, 최소한의 데이터 샘플로도 고품질 음성을 생성할 수 있어 디지털 언어 보존 및 문화 보호에 큰 잠재력을 제공합니다.
OmniVoice의 소스 코드와 사전 훈련된 모델은 현재 GitHub 및 Hugging Face에 오픈소스로 공개되어 있어, 개발자들이 로컬에 배포하거나 애플리케이션에 통합할 수 있습니다. AIbase는 커뮤니티의 피드백과 실제 사용 사례를 지속적으로 모니터링할 예정입니다. 개발자 여러분의 경험 공유를 환영합니다.
프로젝트 링크: https://github.com/k2-fsa/OmniVoice
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
중국 사이버공간관리국은 AI가 생성한 영상과 허구적인 숏폼 영상에 태그를 달도록 의무화했다
중국 사이버공간관리국은 숏폼 동영상 콘텐츠 표기를 표준화하기 위한 포괄적인 계획을 발표했으며, 플랫폼들이 “AI 생성 콘텐츠”를 포함한 6가지 필수 태그를 제공하도록 의무화함으로써 숏폼 동영상 규제에 있어 투명성 확보가 필수적인 새로운 시대를 열었다.콘텐츠 출처가 불분명하거나 사실과 허구를 구분하기 어려운 문제 등을 해결하기 위해, 규제 당국은 도우인(Do
텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다
텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API





집






