Elevenlabs는 새로운 음성 텍스트 모델을 공개합니다
ElevenLabs는 최근 1억 8천만 달러의 막대한 자금을 확보한 AI 스타트업으로, 오디오 생성 기술로 유명하다. 하지만 이제 그들은 새로운 영역으로 과감히 진출하여 첫 번째 독립형 음성-텍스트 모델인 Scribe를 출시했다.
33억 달러의 가치를 지닌 ElevenLabs는 다양한 음성 컬렉션 덕분에 텍스트-음성 변환 서비스가 필요한 많은 기업들에게 선택받아 왔다. 이제 그들은 음성 인식에 목표를 두고 Gladia, Speechmatics, AssemblyAI, Deepgram, 그리고 OpenAI의 Whisper 모델과 같은 큰 이름들과 경쟁하려 한다.
Scribe는 시작부터 99개 이상의 언어를 지원하며 만만치 않다. ElevenLabs는 25개 이상의 언어에서 단어 오류율이 5% 미만으로 뛰어난 정확도를 자랑한다고 밝혔다. 여기에는 영어(97%의 정확도를 주장), 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어, 칸나다어, 말라얄람어, 폴란드어, 포르투갈어, 스페인어, 베트남어 등이 포함된다. 나머지 언어들은 정확도 범주에 따라 높음(단어 오류율 5%~10%), 양호(10%~20%), 중간(25%~50%)으로 나뉜다.
이 회사는 Scribe가 FLEURS 및 Common Voice 벤치마크 테스트에 따르면 여러 언어에서 Google Gemini 2.0 Flash와 Whisper Large V3를 능가한다고 주장한다.

이미지 제공: ElevenLabs ElevenLabs는 작년에 AI 대화 에이전트 플랫폼을 위해 음성-텍스트 기능을 구축했지만, Scribe는 독립형 음성 인식 모델에 대한 그들의 첫 번째 시도다. 지난달 TechCrunch와의 대화에서 CEO Mati Staniszewski는 음성 인식 기술을 강화하려는 계획을 밝혔다.
"우리는 대화에서 당신이 말하는 것을 더 잘 이해하고 싶다. 더 이상 콘텐츠 생성에만 집중하는 것이 아니라, 음성을 이해하고 전사하는 방향으로 나아가고 있다,"라고 Staniszewski는 말했다. "많은 사람들이 음성-텍스트 기술이 구식이라고 생각하지만, 많은 언어에서는 여전히 부족하다. 우리는 데이터를 라벨링하고 빠른 피드백을 제공하는 사내 팀을 통해 더 나은 성과를 낼 수 있다고 믿는다."
Scribe는 누가 말하는지를 구분하는 스마트 스피커 분리 기능, 정확한 자막을 위한 단어 단위 타임스탬프, 관객 웃음과 같은 음향 이벤트 자동 태깅과 같은 멋진 기능을 갖추고 있다. 또한, ElevenLabs는 고객들이 스튜디오에서 비디오 콘텐츠를 직접 전사하여 자막이나 캡션을 추가할 수 있도록 하고 있다.
현재 Scribe는 사전 녹음된 오디오에만 작동한다. 하지만 걱정하지 마라, 회사는 곧 저지연 실시간 버전을 개발 중이라고 밝혔다. 따라서 아직 회의 전사나 음성 메모 작성에는 적합하지 않다.
ElevenLabs는 Scribe로 전사된 오디오 1시간당 0.40달러를 청구한다. 경쟁력 있는 가격이지만, 일부 경쟁사들은 더 저렴한 요금으로 오디오 전사를 제공하며, 몇 가지 다른 기능을 포함하고 있다.
관련 기사
미국, 소셜 미디어 규제로 외국 공무원을 제재하다
미국, 글로벌 디지털 콘텐츠 규제에 반대 입장 표명이번 주 국무부는 유럽의 디지털 거버넌스 정책을 겨냥해 날카로운 외교적 비난을 발표하며 온라인 플랫폼 통제에 대한 긴장이 고조되고 있음을 알렸습니다. 마르코 루비오 장관은 미국의 디지털 공간에 영향을 미치는 과도한 검열에 관여하는 외국 공무원을 대상으로 하는 새로운 비자 제한 정책을 발표했습니다.새로
AI 기반 YouTube 동영상 요약기를 위한 최종 가이드
정보가 풍부한 디지털 환경에서 AI 기반 YouTube 동영상 요약 도구는 효율적인 콘텐츠 소비에 없어서는 안 될 필수 요소가 되었습니다. 이 심층 가이드에서는 최첨단 자연어 처리 기술, 특히 YouTube의 트랜스크립트 API와 결합된 Hugging Face의 BART 모델을 사용하여 정교한 요약 도구를 구축하는 방법을 살펴봅니다. 생산성 도구를 개발하든
개발자 도구 강화를 위해 6억 1,000만 달러에 브라우저 회사를 인수한 Atlassian
엔터프라이즈 생산성 소프트웨어의 선두주자인 Atlassian은 혁신적인 브라우저 개발사인 The Browser Company를 6억 1,000만 달러에 전액 현금으로 인수할 계획을 발표했습니다. 이 전략적 움직임은 현대 지식 근로자를 위해 맞춤화된 AI 기반 기능을 통합하여 업무 공간의 브라우징을 혁신하는 것을 목표로 합니다."기존 브라우저는 캐주얼한
의견 (29)
0/200
MiaDavis
2025년 9월 5일 오전 9시 30분 33초 GMT+09:00
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
0
LawrenceLopez
2025년 8월 31일 오전 5시 30분 33초 GMT+09:00
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
0
TimothyMartínez
2025년 8월 21일 오후 10시 1분 20초 GMT+09:00
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
2025년 8월 13일 오전 6시 0분 59초 GMT+09:00
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
2025년 4월 21일 오전 10시 44분 55초 GMT+09:00
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
2025년 4월 21일 오전 5시 36분 44초 GMT+09:00
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
ElevenLabs는 최근 1억 8천만 달러의 막대한 자금을 확보한 AI 스타트업으로, 오디오 생성 기술로 유명하다. 하지만 이제 그들은 새로운 영역으로 과감히 진출하여 첫 번째 독립형 음성-텍스트 모델인 Scribe를 출시했다.
33억 달러의 가치를 지닌 ElevenLabs는 다양한 음성 컬렉션 덕분에 텍스트-음성 변환 서비스가 필요한 많은 기업들에게 선택받아 왔다. 이제 그들은 음성 인식에 목표를 두고 Gladia, Speechmatics, AssemblyAI, Deepgram, 그리고 OpenAI의 Whisper 모델과 같은 큰 이름들과 경쟁하려 한다.
Scribe는 시작부터 99개 이상의 언어를 지원하며 만만치 않다. ElevenLabs는 25개 이상의 언어에서 단어 오류율이 5% 미만으로 뛰어난 정확도를 자랑한다고 밝혔다. 여기에는 영어(97%의 정확도를 주장), 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어, 칸나다어, 말라얄람어, 폴란드어, 포르투갈어, 스페인어, 베트남어 등이 포함된다. 나머지 언어들은 정확도 범주에 따라 높음(단어 오류율 5%~10%), 양호(10%~20%), 중간(25%~50%)으로 나뉜다.
이 회사는 Scribe가 FLEURS 및 Common Voice 벤치마크 테스트에 따르면 여러 언어에서 Google Gemini 2.0 Flash와 Whisper Large V3를 능가한다고 주장한다.
ElevenLabs는 작년에 AI 대화 에이전트 플랫폼을 위해 음성-텍스트 기능을 구축했지만, Scribe는 독립형 음성 인식 모델에 대한 그들의 첫 번째 시도다. 지난달 TechCrunch와의 대화에서 CEO Mati Staniszewski는 음성 인식 기술을 강화하려는 계획을 밝혔다.
"우리는 대화에서 당신이 말하는 것을 더 잘 이해하고 싶다. 더 이상 콘텐츠 생성에만 집중하는 것이 아니라, 음성을 이해하고 전사하는 방향으로 나아가고 있다,"라고 Staniszewski는 말했다. "많은 사람들이 음성-텍스트 기술이 구식이라고 생각하지만, 많은 언어에서는 여전히 부족하다. 우리는 데이터를 라벨링하고 빠른 피드백을 제공하는 사내 팀을 통해 더 나은 성과를 낼 수 있다고 믿는다."
Scribe는 누가 말하는지를 구분하는 스마트 스피커 분리 기능, 정확한 자막을 위한 단어 단위 타임스탬프, 관객 웃음과 같은 음향 이벤트 자동 태깅과 같은 멋진 기능을 갖추고 있다. 또한, ElevenLabs는 고객들이 스튜디오에서 비디오 콘텐츠를 직접 전사하여 자막이나 캡션을 추가할 수 있도록 하고 있다.
현재 Scribe는 사전 녹음된 오디오에만 작동한다. 하지만 걱정하지 마라, 회사는 곧 저지연 실시간 버전을 개발 중이라고 밝혔다. 따라서 아직 회의 전사나 음성 메모 작성에는 적합하지 않다.
ElevenLabs는 Scribe로 전사된 오디오 1시간당 0.40달러를 청구한다. 경쟁력 있는 가격이지만, 일부 경쟁사들은 더 저렴한 요금으로 오디오 전사를 제공하며, 몇 가지 다른 기능을 포함하고 있다.




스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔




A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!




Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊












