Elevenlabs는 새로운 음성 텍스트 모델을 공개합니다
ElevenLabs는 최근 1억 8천만 달러의 막대한 자금을 확보한 AI 스타트업으로, 오디오 생성 기술로 유명하다. 하지만 이제 그들은 새로운 영역으로 과감히 진출하여 첫 번째 독립형 음성-텍스트 모델인 Scribe를 출시했다.
33억 달러의 가치를 지닌 ElevenLabs는 다양한 음성 컬렉션 덕분에 텍스트-음성 변환 서비스가 필요한 많은 기업들에게 선택받아 왔다. 이제 그들은 음성 인식에 목표를 두고 Gladia, Speechmatics, AssemblyAI, Deepgram, 그리고 OpenAI의 Whisper 모델과 같은 큰 이름들과 경쟁하려 한다.
Scribe는 시작부터 99개 이상의 언어를 지원하며 만만치 않다. ElevenLabs는 25개 이상의 언어에서 단어 오류율이 5% 미만으로 뛰어난 정확도를 자랑한다고 밝혔다. 여기에는 영어(97%의 정확도를 주장), 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어, 칸나다어, 말라얄람어, 폴란드어, 포르투갈어, 스페인어, 베트남어 등이 포함된다. 나머지 언어들은 정확도 범주에 따라 높음(단어 오류율 5%~10%), 양호(10%~20%), 중간(25%~50%)으로 나뉜다.
이 회사는 Scribe가 FLEURS 및 Common Voice 벤치마크 테스트에 따르면 여러 언어에서 Google Gemini 2.0 Flash와 Whisper Large V3를 능가한다고 주장한다.

이미지 제공: ElevenLabs ElevenLabs는 작년에 AI 대화 에이전트 플랫폼을 위해 음성-텍스트 기능을 구축했지만, Scribe는 독립형 음성 인식 모델에 대한 그들의 첫 번째 시도다. 지난달 TechCrunch와의 대화에서 CEO Mati Staniszewski는 음성 인식 기술을 강화하려는 계획을 밝혔다.
"우리는 대화에서 당신이 말하는 것을 더 잘 이해하고 싶다. 더 이상 콘텐츠 생성에만 집중하는 것이 아니라, 음성을 이해하고 전사하는 방향으로 나아가고 있다,"라고 Staniszewski는 말했다. "많은 사람들이 음성-텍스트 기술이 구식이라고 생각하지만, 많은 언어에서는 여전히 부족하다. 우리는 데이터를 라벨링하고 빠른 피드백을 제공하는 사내 팀을 통해 더 나은 성과를 낼 수 있다고 믿는다."
Scribe는 누가 말하는지를 구분하는 스마트 스피커 분리 기능, 정확한 자막을 위한 단어 단위 타임스탬프, 관객 웃음과 같은 음향 이벤트 자동 태깅과 같은 멋진 기능을 갖추고 있다. 또한, ElevenLabs는 고객들이 스튜디오에서 비디오 콘텐츠를 직접 전사하여 자막이나 캡션을 추가할 수 있도록 하고 있다.
현재 Scribe는 사전 녹음된 오디오에만 작동한다. 하지만 걱정하지 마라, 회사는 곧 저지연 실시간 버전을 개발 중이라고 밝혔다. 따라서 아직 회의 전사나 음성 메모 작성에는 적합하지 않다.
ElevenLabs는 Scribe로 전사된 오디오 1시간당 0.40달러를 청구한다. 경쟁력 있는 가격이지만, 일부 경쟁사들은 더 저렴한 요금으로 오디오 전사를 제공하며, 몇 가지 다른 기능을 포함하고 있다.
관련 기사
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시
하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
관련 특별 주제 추천
의견 (29)
0/500
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
ElevenLabs는 최근 1억 8천만 달러의 막대한 자금을 확보한 AI 스타트업으로, 오디오 생성 기술로 유명하다. 하지만 이제 그들은 새로운 영역으로 과감히 진출하여 첫 번째 독립형 음성-텍스트 모델인 Scribe를 출시했다.
33억 달러의 가치를 지닌 ElevenLabs는 다양한 음성 컬렉션 덕분에 텍스트-음성 변환 서비스가 필요한 많은 기업들에게 선택받아 왔다. 이제 그들은 음성 인식에 목표를 두고 Gladia, Speechmatics, AssemblyAI, Deepgram, 그리고 OpenAI의 Whisper 모델과 같은 큰 이름들과 경쟁하려 한다.
Scribe는 시작부터 99개 이상의 언어를 지원하며 만만치 않다. ElevenLabs는 25개 이상의 언어에서 단어 오류율이 5% 미만으로 뛰어난 정확도를 자랑한다고 밝혔다. 여기에는 영어(97%의 정확도를 주장), 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어, 칸나다어, 말라얄람어, 폴란드어, 포르투갈어, 스페인어, 베트남어 등이 포함된다. 나머지 언어들은 정확도 범주에 따라 높음(단어 오류율 5%~10%), 양호(10%~20%), 중간(25%~50%)으로 나뉜다.
이 회사는 Scribe가 FLEURS 및 Common Voice 벤치마크 테스트에 따르면 여러 언어에서 Google Gemini 2.0 Flash와 Whisper Large V3를 능가한다고 주장한다.

ElevenLabs는 작년에 AI 대화 에이전트 플랫폼을 위해 음성-텍스트 기능을 구축했지만, Scribe는 독립형 음성 인식 모델에 대한 그들의 첫 번째 시도다. 지난달 TechCrunch와의 대화에서 CEO Mati Staniszewski는 음성 인식 기술을 강화하려는 계획을 밝혔다.
"우리는 대화에서 당신이 말하는 것을 더 잘 이해하고 싶다. 더 이상 콘텐츠 생성에만 집중하는 것이 아니라, 음성을 이해하고 전사하는 방향으로 나아가고 있다,"라고 Staniszewski는 말했다. "많은 사람들이 음성-텍스트 기술이 구식이라고 생각하지만, 많은 언어에서는 여전히 부족하다. 우리는 데이터를 라벨링하고 빠른 피드백을 제공하는 사내 팀을 통해 더 나은 성과를 낼 수 있다고 믿는다."
Scribe는 누가 말하는지를 구분하는 스마트 스피커 분리 기능, 정확한 자막을 위한 단어 단위 타임스탬프, 관객 웃음과 같은 음향 이벤트 자동 태깅과 같은 멋진 기능을 갖추고 있다. 또한, ElevenLabs는 고객들이 스튜디오에서 비디오 콘텐츠를 직접 전사하여 자막이나 캡션을 추가할 수 있도록 하고 있다.
현재 Scribe는 사전 녹음된 오디오에만 작동한다. 하지만 걱정하지 마라, 회사는 곧 저지연 실시간 버전을 개발 중이라고 밝혔다. 따라서 아직 회의 전사나 음성 메모 작성에는 적합하지 않다.
ElevenLabs는 Scribe로 전사된 오디오 1시간당 0.40달러를 청구한다. 경쟁력 있는 가격이지만, 일부 경쟁사들은 더 저렴한 요금으로 오디오 전사를 제공하며, 몇 가지 다른 기능을 포함하고 있다.
하이얼, 무게가 단 1.75kg에 불과한 세계에서 가장 가벼운 AI 스포츠 외골격 로봇 출시
하이얼 그룹은 세계에서 가장 가벼운 AI 기반 스포츠용 외골격 로봇인 ‘하이얼 외골격 로봇 W3’를 선보였습니다. 이번 출시로 경량성 부문에서 업계 신기록을 세우며, 경량 설계 및 지능형 인간 동작 강화 분야에서 획기적인 진전을 이루었습니다.고급 소재가 구현한 초경량 디자인W3는 풀 카본 파이버와 티타늄 합금을 결합한 혁신적인 일체형 제조 공정을 적용했습니
야오크 미디어의 첫 AIGC 드라마 '진링의 청동 미스터리'가 오늘 AI가 연기한 주연 배우들과 함께 공개된다
오늘, 야오케 미디어의 AIGC 판타지 미스터리 단편 드라마 《진링 청동의 비밀》이 공식 공개됩니다. 이 작품은 회사 최초의 AI 배우 두 명인 진링위예와 린시야녠이 주연을 맡았으며, 신비로운 진링 광산 지역을 배경으로 이야기가 펼쳐집니다. 은퇴한 정보 요원 진웨가 팀을 이끌고 이 지역 깊숙이 들어가, 오랫동안 묻혀 있던 광산 참사와 두 세대에 걸친 피의
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀





집






