미스트랄, 오픈소스 음성 생성 모델 공개
프랑스의 AI 기업 미스트랄(Mistral)은 목요일, 음성 AI 비서 및 고객 지원과 같은 기업용 애플리케이션을 위해 설계된 새로운 오픈소스 텍스트-투-스피치(TTS) 모델을 공개했다. 이 모델을 통해 기업들은 영업 및 고객 소통을 위한 음성 에이전트를 구축할 수 있게 되었으며, 미스트랄은 이를 통해 일레븐랩스(ElevenLabs), 딥그램(Deepgram), 오픈AI(OpenAI)의 직접적인 경쟁자로 자리매김했다.
'복스트랄 TTS(Voxtral TTS)'로 명명된 이 모델은 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어 등 9개 언어를 지원한다.
미스트랄 AI의 과학 운영 부사장 피에르 스톡(Pierre Stock)은 테크크런치(TechCrunch)와의 전화 인터뷰에서 "고객들이 음성 모델을 요청해 왔습니다. 그래서 우리는 스마트워치, 스마트폰, 노트북 또는 기타 엣지 기기에 탑재할 수 있는 소형 음성 모델을 개발했습니다. 비용은 시중의 다른 제품들에 비해 극히 일부에 불과하지만, 최첨단 성능을 제공합니다"라고 말했다.

이미지 출처: 미스트랄
미스트랄은 이 새로운 모델이 5초 미만의 샘플만으로도 사용자 맞춤형 음성에 적응할 수 있으며, 미묘한 억양, 어조, 강세, 그리고 말의 흐름에서 나타나는 불규칙성까지 포착할 수 있다고 설명합니다. 미스트랄 3B를 기반으로 구축된 이 모델은 음성 특성을 유지한 채 언어를 매끄럽게 전환할 수 있어 더빙이나 실시간 번역에 이상적입니다. 스톡 부사장은 회사가 로봇 같은 소리가 아닌, 인간과 같은 목소리를 내는 모델을 만드는 것을 목표로 했다고 언급했습니다.
회사에 따르면, 이 모델은 실시간 성능을 위해 설계되었다. 입력 수신부터 '말하기' 시작까지의 시간인 '첫 음성 출력까지 소요 시간(TTFA)'은 500자 분량의 10초 샘플 기준 90ms이다. 또한 이 모델은 6배의 실시간 처리율(RTF)을 달성하여, 약 1.6초 만에 10초 분량의 클립을 생성할 수 있습니다.

이미지 출처: 미스트랄 AI
올해 초, 미스트랄은 대규모 일괄 처리를 위한 모델과 저지연 실시간 사용 사례를 위한 모델 등 두 가지 트랜스크립션 모델을 출시했습니다. 새로운 음성 모델을 통해 이 회사는 기업을 위한 포괄적인 음성 제품군을 구축하고 있는 것으로 보입니다.
스톡은 "우리는 오디오, 텍스트, 이미지 등 다중 모달 입력 스트림은 물론 출력까지 처리할 수 있는 엔드투엔드 플랫폼을 구축할 계획입니다. 핵심적인 장점은 오디오 입력 및 출력을 지원하는 엔드투엔드 에이전트 시스템이 훨씬 더 풍부한 정보를 제공한다는 점입니다"라고 덧붙였습니다.
미스트랄은 오픈소스 특성과 사용자 정의 기능을 핵심 차별화 요소로 내세우며, 기업들이 특정 요구 사항에 맞춰 모델을 조정할 수 있게 함으로써 경쟁사 솔루션보다 우위를 점하고 있습니다.
관련 기사
스포티파이, ElevenLabs 기술을 기반으로 한 AI 오디오북 제작 도구 공개
스포티파이는 최근 발표한 내용 중 하나로, ElevenLabs의 기술을 기반으로 한 새로운 AI 도구를 선보였으며, 이를 통해 작가들은 ‘Spotify for Authors’ 플랫폼을 통해 오디오북을 직접 출판할 수 있게 되었습니다. 투자자 설명회(Investor Day) 행사에서 스포티파이는 이 기능이 6월에 베타 서비스에 들어갈 예정이며, 초대받은 사용
최고의 AI 음성 입력 앱: 전문가 리뷰 및 순위
AI 음성 인식 앱은 비교적 짧은 기간 동안 놀라운 발전을 이루었습니다. 오랫동안 이 앱들은 반응이 느리고 오류가 잦아, 사용자가 특정한 억양으로 매우 명확하게 말해야만 했습니다.하지만 대규모 언어 모델(LLM)과 음성 인식 기술의 발전으로 상황이 바뀌었으며, 이제는 음성을 더 정확하게 이해할 뿐만 아니라 문맥을 활용해 텍스트를 적절하게 서식화할 수 있는
Wispr Flow, 어려움에도 불구하고 인도 음성 AI 시장의 미래에 주목하다
인도의 디지털 환경은 음성 메모부터 다국어 메시징에 이르기까지 음성 기술과 깊이 밀접하게 연결되어 있습니다. 그러나 인도의 언어적 다양성, 코드 스위칭 관행, 그리고 제각각인 수익화 잠재력을 고려할 때, 이러한 보편적인 사용 습관을 확장 가능한 AI 사업으로 전환하는 데는 상당한 어려움이 따릅니다. Wispr Flow는 이 복잡하지만 유망한 기회를 공략하기
관련 특별 주제 추천
의견 (0)
0/500
프랑스의 AI 기업 미스트랄(Mistral)은 목요일, 음성 AI 비서 및 고객 지원과 같은 기업용 애플리케이션을 위해 설계된 새로운 오픈소스 텍스트-투-스피치(TTS) 모델을 공개했다. 이 모델을 통해 기업들은 영업 및 고객 소통을 위한 음성 에이전트를 구축할 수 있게 되었으며, 미스트랄은 이를 통해 일레븐랩스(ElevenLabs), 딥그램(Deepgram), 오픈AI(OpenAI)의 직접적인 경쟁자로 자리매김했다.
'복스트랄 TTS(Voxtral TTS)'로 명명된 이 모델은 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어 등 9개 언어를 지원한다.
미스트랄 AI의 과학 운영 부사장 피에르 스톡(Pierre Stock)은 테크크런치(TechCrunch)와의 전화 인터뷰에서 "고객들이 음성 모델을 요청해 왔습니다. 그래서 우리는 스마트워치, 스마트폰, 노트북 또는 기타 엣지 기기에 탑재할 수 있는 소형 음성 모델을 개발했습니다. 비용은 시중의 다른 제품들에 비해 극히 일부에 불과하지만, 최첨단 성능을 제공합니다"라고 말했다.

이미지 출처: 미스트랄
미스트랄은 이 새로운 모델이 5초 미만의 샘플만으로도 사용자 맞춤형 음성에 적응할 수 있으며, 미묘한 억양, 어조, 강세, 그리고 말의 흐름에서 나타나는 불규칙성까지 포착할 수 있다고 설명합니다. 미스트랄 3B를 기반으로 구축된 이 모델은 음성 특성을 유지한 채 언어를 매끄럽게 전환할 수 있어 더빙이나 실시간 번역에 이상적입니다. 스톡 부사장은 회사가 로봇 같은 소리가 아닌, 인간과 같은 목소리를 내는 모델을 만드는 것을 목표로 했다고 언급했습니다.
회사에 따르면, 이 모델은 실시간 성능을 위해 설계되었다. 입력 수신부터 '말하기' 시작까지의 시간인 '첫 음성 출력까지 소요 시간(TTFA)'은 500자 분량의 10초 샘플 기준 90ms이다. 또한 이 모델은 6배의 실시간 처리율(RTF)을 달성하여, 약 1.6초 만에 10초 분량의 클립을 생성할 수 있습니다.

이미지 출처: 미스트랄 AI
올해 초, 미스트랄은 대규모 일괄 처리를 위한 모델과 저지연 실시간 사용 사례를 위한 모델 등 두 가지 트랜스크립션 모델을 출시했습니다. 새로운 음성 모델을 통해 이 회사는 기업을 위한 포괄적인 음성 제품군을 구축하고 있는 것으로 보입니다.
스톡은 "우리는 오디오, 텍스트, 이미지 등 다중 모달 입력 스트림은 물론 출력까지 처리할 수 있는 엔드투엔드 플랫폼을 구축할 계획입니다. 핵심적인 장점은 오디오 입력 및 출력을 지원하는 엔드투엔드 에이전트 시스템이 훨씬 더 풍부한 정보를 제공한다는 점입니다"라고 덧붙였습니다.
미스트랄은 오픈소스 특성과 사용자 정의 기능을 핵심 차별화 요소로 내세우며, 기업들이 특정 요구 사항에 맞춰 모델을 조정할 수 있게 함으로써 경쟁사 솔루션보다 우위를 점하고 있습니다.
스포티파이, ElevenLabs 기술을 기반으로 한 AI 오디오북 제작 도구 공개
스포티파이는 최근 발표한 내용 중 하나로, ElevenLabs의 기술을 기반으로 한 새로운 AI 도구를 선보였으며, 이를 통해 작가들은 ‘Spotify for Authors’ 플랫폼을 통해 오디오북을 직접 출판할 수 있게 되었습니다. 투자자 설명회(Investor Day) 행사에서 스포티파이는 이 기능이 6월에 베타 서비스에 들어갈 예정이며, 초대받은 사용
최고의 AI 음성 입력 앱: 전문가 리뷰 및 순위
AI 음성 인식 앱은 비교적 짧은 기간 동안 놀라운 발전을 이루었습니다. 오랫동안 이 앱들은 반응이 느리고 오류가 잦아, 사용자가 특정한 억양으로 매우 명확하게 말해야만 했습니다.하지만 대규모 언어 모델(LLM)과 음성 인식 기술의 발전으로 상황이 바뀌었으며, 이제는 음성을 더 정확하게 이해할 뿐만 아니라 문맥을 활용해 텍스트를 적절하게 서식화할 수 있는
Wispr Flow, 어려움에도 불구하고 인도 음성 AI 시장의 미래에 주목하다
인도의 디지털 환경은 음성 메모부터 다국어 메시징에 이르기까지 음성 기술과 깊이 밀접하게 연결되어 있습니다. 그러나 인도의 언어적 다양성, 코드 스위칭 관행, 그리고 제각각인 수익화 잠재력을 고려할 때, 이러한 보편적인 사용 습관을 확장 가능한 AI 사업으로 전환하는 데는 상당한 어려움이 따릅니다. Wispr Flow는 이 복잡하지만 유망한 기회를 공략하기





집






