마이크로소프트의 VibeVoice AI 제품군이 오픈 소스로 공개되었으며, 90분 분량의 대화 처리가 가능하고 GitHub에서 2만 7천 개 이상의 스타를 기록했습니다.
마이크로소프트는 최근 자동 음성 인식(ASR) 및 텍스트 음성 변환(TTS)과 같은 기능을 갖춘 최첨단 음성 AI 모델 제품군인 ‘VibeVoice’를 오픈소스로 공개했습니다. 이 프로젝트는 강력한 장시간 오디오 처리 능력, 자연스러운 다중 화자 대화 생성 기능, 그리고 실시간 저지연 성능 덕분에 개발자 커뮤니티의 관심을 빠르게 사로잡았습니다. 이미 GitHub에서 약 27,000개의 '스타'를 기록했습니다.
MIT 라이선스 하에 오픈소스 연구 프레임워크로 공개된 VibeVoice는 클라우드 구독료 없이 로컬 배포를 지원하며, 음성 합성 분야의 협업과 혁신을 촉진하는 것을 목표로 합니다. 이 모델 제품군은 세 가지 핵심 구성원으로 이루어져 있으며, 각각 장문 처리, 화자 일관성, 자연스러운 유창성 등 기존 음성 AI의 특정 과제를 해결합니다.

VibeVoice-ASR-7B: 최대 60분 분량의 오디오를 처리하는 강력한 구조화된 음성-텍스트 변환 도구
VibeVoice-ASR-7B는 단일 처리로 최대 60분 길이의 오디오 파일을 처리하여 구조화된 텍스트를 직접 출력할 수 있는 통합 음성-텍스트 변환 모델입니다. 이 모델은 화자를 식별하고 정확한 타임스탬프를 제공하며, 발화 내용을 상세히 기록하는 동시에 고유명사나 전문 용어의 정확도를 높이기 위해 사용자 정의 핫워드를 지원합니다. 50개 이상의 언어를 지원하므로, 긴 회의 녹음이나 팟캐스트 트랜스크립션과 같은 복잡한 시나리오에 적합합니다.
커뮤니티 개발자들은 이미 macOS 및 Windows용 'Vibing'이라는 음성 입력 방식과 같은 실용적인 도구를 이 모델을 기반으로 구축했습니다. 사용자 피드백에 따르면 속도와 정확성 면에서 뛰어난 성능을 보여 일상적인 음성 입력 효율을 크게 높여줍니다.
VibeVoice-TTS-1.5B: 최대 90분 동안 여러 화자의 표현력 있는 음성 생성
VibeVoice-TTS-1.5B는 핵심 텍스트 음성 변환(TTS) 모델로, 한 번에 최대 90분 길이의 연속 오디오를 생성할 수 있으며, 자연스러운 대화 시뮬레이션을 위해 최대 4명의 서로 다른 화자를 지원합니다. 합성된 음성은 표현력이 풍부하며, 사실적인 멈춤, 강조, 감정 변화와 함께 자연스럽고 유창하게 들리므로 팟캐스트, 긴 내레이션, 오디오북 또는 다중 등장인물 대화에 이상적입니다.
1~2명의 화자로 제한되는 많은 기존 TTS 모델과 달리, VibeVoice-TTS는 장문 및 다중 화자 일관성 측면에서 획기적인 발전을 이루었습니다. 이 모델의 아키텍처는 연속 음성 토큰화기(음향 및 의미론적)와 낮은 프레임 속도(7.5Hz)를 결합하여, 긴 시퀀스에 대한 계산 효율성을 크게 향상시킵니다.
VibeVoice-Realtime-0.5B: 약 300밀리초 지연 시간을 가진 실시간 TTS
VibeVoice-Realtime-0.5B는 실시간 애플리케이션을 위해 설계되었으며, 약 300밀리초의 첫 오디오 지연 시간으로 스트리밍 텍스트 입력을 지원하면서도 최대 10분 길이의 오디오를 생성할 수 있습니다. 이 모델은 실시간 음성 비서나 라이브 스트리밍 더빙과 같이 즉각적인 피드백이 필요한 대화형 애플리케이션에 특히 적합합니다.
또한, 이 프로젝트는 다국어 음성 및 다양한 영어 스타일 변형을 포함한 실험적인 화자 지원 기능을 도입하여 개발자에게 더 폭넓은 맞춤 설정 옵션을 제공합니다.
AIbase 리뷰: 마이크로소프트의 VibeVoice 오픈소스화는 고성능 음성 AI의 진입 장벽을 낮출 뿐만 아니라 완벽한 온프레미스 배포 솔루션을 제공합니다. 이 프로젝트는 잠재적인 오용 위험으로 인해 잠시 중단되었으나, 책임감 있는 AI 개발 원칙에 따라 오디오 워터마크 및 음성 안내와 같은 보안 조치를 구현한 후 재개되었습니다. 이제 개발자들은 GitHub 및 Hugging Face에서 모델 가중치를 다운로드하여 Colab과 같은 플랫폼을 통해 신속하게 테스트할 수 있습니다.
Apple Silicon 최적화를 포함한 오픈소스 커뮤니티의 지속적인 기여에 힘입어, VibeVoice는 콘텐츠 제작, 접근성 도구 및 음성 상호작용 분야에서 도입이 가속화될 전망입니다. 관심 있는 개발자는 Microsoft의 공식 프로젝트 페이지를 방문하여 더 자세히 살펴볼 수 있습니다.
프로젝트 주소: https://github.com/microsoft/VibeVoice
관련 기사
중국 공과대학교(MIIT)가 AI 모델 컨텍스트 프로토콜을 포함한 121개 산업 표준에 대한 대중의 의견을 구하고 있습니다.
중국 산업정보기술부는 “인공지능 보안 거버넌스 모델 컨텍스트 프로토콜의 애플리케이션 보안 요구사항”을 포함한 121개 산업 표준화 프로젝트에 대한 대중의 의견을 구하는 공지를 공식적으로 발표했습니다. 이번 발표는 중국이 인공지능 분야에서 기초 표준과 안전 감독 체계를 수립하기 위한 노력에서 중요한 이정표입니다. 대중 의견 수렴 기간은 모델 컨텍스트 프로토콜의 애플리케이션 보안에 초점을 맞추고 있으며, 표준화된 기술 사양을 통해 다모달 상호작용,
오픈AI, 미국 국방부와 협력… 챗GPT 제거 건수 295% 급증
대중의 분노: OpenAI의 군사 협력이 ‘제거 열풍’을 불러일으키다최근, AI 선두주자인 OpenAI는 미국 국방부와의 긴밀한 협력을 발표하며 자사의 AI 모델을 최고 기밀 군사 네트워크에 통합했습니다. 이 소식은 미국 전역에서 사용자들의 거센 반발을 불러일으켰으며, ‘ChatGPT 보이콧’ 운동이 확산되기 시작했습니다.시장 분석 기관 Sensor Tower에 따르면, 2026년 2월 28일 OpenAI가 이 협력을 공식적으로 발표한 날,
오픈AI, ‘사이트’ 기능 출시… 텍스트 기반 웹사이트로 ‘노코드’ 시대의 종막을 알리다
OpenAI는 자사의 소프트웨어 엔지니어링용 AI인 Codex를 위한 새로운 기능인 ‘Sites’를 선보였습니다. 현재 프리뷰 단계에 있는 이 기능은 유료 Business 및 Enterprise 구독자만 이용할 수 있으며, 웹 및 애플리케이션 개발의 기존 장벽을 없애는 것을 목표로 합니다.본질적으로 'Sites'는 추상적인 아이디어를 실제 작동하는 도구로
관련 특별 주제 추천
의견 (0)
0/500
마이크로소프트는 최근 자동 음성 인식(ASR) 및 텍스트 음성 변환(TTS)과 같은 기능을 갖춘 최첨단 음성 AI 모델 제품군인 ‘VibeVoice’를 오픈소스로 공개했습니다. 이 프로젝트는 강력한 장시간 오디오 처리 능력, 자연스러운 다중 화자 대화 생성 기능, 그리고 실시간 저지연 성능 덕분에 개발자 커뮤니티의 관심을 빠르게 사로잡았습니다. 이미 GitHub에서 약 27,000개의 '스타'를 기록했습니다.
MIT 라이선스 하에 오픈소스 연구 프레임워크로 공개된 VibeVoice는 클라우드 구독료 없이 로컬 배포를 지원하며, 음성 합성 분야의 협업과 혁신을 촉진하는 것을 목표로 합니다. 이 모델 제품군은 세 가지 핵심 구성원으로 이루어져 있으며, 각각 장문 처리, 화자 일관성, 자연스러운 유창성 등 기존 음성 AI의 특정 과제를 해결합니다.

VibeVoice-ASR-7B: 최대 60분 분량의 오디오를 처리하는 강력한 구조화된 음성-텍스트 변환 도구
VibeVoice-ASR-7B는 단일 처리로 최대 60분 길이의 오디오 파일을 처리하여 구조화된 텍스트를 직접 출력할 수 있는 통합 음성-텍스트 변환 모델입니다. 이 모델은 화자를 식별하고 정확한 타임스탬프를 제공하며, 발화 내용을 상세히 기록하는 동시에 고유명사나 전문 용어의 정확도를 높이기 위해 사용자 정의 핫워드를 지원합니다. 50개 이상의 언어를 지원하므로, 긴 회의 녹음이나 팟캐스트 트랜스크립션과 같은 복잡한 시나리오에 적합합니다.
커뮤니티 개발자들은 이미 macOS 및 Windows용 'Vibing'이라는 음성 입력 방식과 같은 실용적인 도구를 이 모델을 기반으로 구축했습니다. 사용자 피드백에 따르면 속도와 정확성 면에서 뛰어난 성능을 보여 일상적인 음성 입력 효율을 크게 높여줍니다.
VibeVoice-TTS-1.5B: 최대 90분 동안 여러 화자의 표현력 있는 음성 생성
VibeVoice-TTS-1.5B는 핵심 텍스트 음성 변환(TTS) 모델로, 한 번에 최대 90분 길이의 연속 오디오를 생성할 수 있으며, 자연스러운 대화 시뮬레이션을 위해 최대 4명의 서로 다른 화자를 지원합니다. 합성된 음성은 표현력이 풍부하며, 사실적인 멈춤, 강조, 감정 변화와 함께 자연스럽고 유창하게 들리므로 팟캐스트, 긴 내레이션, 오디오북 또는 다중 등장인물 대화에 이상적입니다.
1~2명의 화자로 제한되는 많은 기존 TTS 모델과 달리, VibeVoice-TTS는 장문 및 다중 화자 일관성 측면에서 획기적인 발전을 이루었습니다. 이 모델의 아키텍처는 연속 음성 토큰화기(음향 및 의미론적)와 낮은 프레임 속도(7.5Hz)를 결합하여, 긴 시퀀스에 대한 계산 효율성을 크게 향상시킵니다.
VibeVoice-Realtime-0.5B: 약 300밀리초 지연 시간을 가진 실시간 TTS
VibeVoice-Realtime-0.5B는 실시간 애플리케이션을 위해 설계되었으며, 약 300밀리초의 첫 오디오 지연 시간으로 스트리밍 텍스트 입력을 지원하면서도 최대 10분 길이의 오디오를 생성할 수 있습니다. 이 모델은 실시간 음성 비서나 라이브 스트리밍 더빙과 같이 즉각적인 피드백이 필요한 대화형 애플리케이션에 특히 적합합니다.
또한, 이 프로젝트는 다국어 음성 및 다양한 영어 스타일 변형을 포함한 실험적인 화자 지원 기능을 도입하여 개발자에게 더 폭넓은 맞춤 설정 옵션을 제공합니다.
AIbase 리뷰: 마이크로소프트의 VibeVoice 오픈소스화는 고성능 음성 AI의 진입 장벽을 낮출 뿐만 아니라 완벽한 온프레미스 배포 솔루션을 제공합니다. 이 프로젝트는 잠재적인 오용 위험으로 인해 잠시 중단되었으나, 책임감 있는 AI 개발 원칙에 따라 오디오 워터마크 및 음성 안내와 같은 보안 조치를 구현한 후 재개되었습니다. 이제 개발자들은 GitHub 및 Hugging Face에서 모델 가중치를 다운로드하여 Colab과 같은 플랫폼을 통해 신속하게 테스트할 수 있습니다.
Apple Silicon 최적화를 포함한 오픈소스 커뮤니티의 지속적인 기여에 힘입어, VibeVoice는 콘텐츠 제작, 접근성 도구 및 음성 상호작용 분야에서 도입이 가속화될 전망입니다. 관심 있는 개발자는 Microsoft의 공식 프로젝트 페이지를 방문하여 더 자세히 살펴볼 수 있습니다.
프로젝트 주소: https://github.com/microsoft/VibeVoice
중국 공과대학교(MIIT)가 AI 모델 컨텍스트 프로토콜을 포함한 121개 산업 표준에 대한 대중의 의견을 구하고 있습니다.
중국 산업정보기술부는 “인공지능 보안 거버넌스 모델 컨텍스트 프로토콜의 애플리케이션 보안 요구사항”을 포함한 121개 산업 표준화 프로젝트에 대한 대중의 의견을 구하는 공지를 공식적으로 발표했습니다. 이번 발표는 중국이 인공지능 분야에서 기초 표준과 안전 감독 체계를 수립하기 위한 노력에서 중요한 이정표입니다. 대중 의견 수렴 기간은 모델 컨텍스트 프로토콜의 애플리케이션 보안에 초점을 맞추고 있으며, 표준화된 기술 사양을 통해 다모달 상호작용,
오픈AI, 미국 국방부와 협력… 챗GPT 제거 건수 295% 급증
대중의 분노: OpenAI의 군사 협력이 ‘제거 열풍’을 불러일으키다최근, AI 선두주자인 OpenAI는 미국 국방부와의 긴밀한 협력을 발표하며 자사의 AI 모델을 최고 기밀 군사 네트워크에 통합했습니다. 이 소식은 미국 전역에서 사용자들의 거센 반발을 불러일으켰으며, ‘ChatGPT 보이콧’ 운동이 확산되기 시작했습니다.시장 분석 기관 Sensor Tower에 따르면, 2026년 2월 28일 OpenAI가 이 협력을 공식적으로 발표한 날,
오픈AI, ‘사이트’ 기능 출시… 텍스트 기반 웹사이트로 ‘노코드’ 시대의 종막을 알리다
OpenAI는 자사의 소프트웨어 엔지니어링용 AI인 Codex를 위한 새로운 기능인 ‘Sites’를 선보였습니다. 현재 프리뷰 단계에 있는 이 기능은 유료 Business 및 Enterprise 구독자만 이용할 수 있으며, 웹 및 애플리케이션 개발의 기존 장벽을 없애는 것을 목표로 합니다.본질적으로 'Sites'는 추상적인 아이디어를 실제 작동하는 도구로





집






