Elevenlabs는 새로운 음성 텍스트 모델을 공개합니다
ElevenLabs는 최근 1억 8천만 달러의 막대한 자금을 확보한 AI 스타트업으로, 오디오 생성 기술로 유명하다. 하지만 이제 그들은 새로운 영역으로 과감히 진출하여 첫 번째 독립형 음성-텍스트 모델인 Scribe를 출시했다.
33억 달러의 가치를 지닌 ElevenLabs는 다양한 음성 컬렉션 덕분에 텍스트-음성 변환 서비스가 필요한 많은 기업들에게 선택받아 왔다. 이제 그들은 음성 인식에 목표를 두고 Gladia, Speechmatics, AssemblyAI, Deepgram, 그리고 OpenAI의 Whisper 모델과 같은 큰 이름들과 경쟁하려 한다.
Scribe는 시작부터 99개 이상의 언어를 지원하며 만만치 않다. ElevenLabs는 25개 이상의 언어에서 단어 오류율이 5% 미만으로 뛰어난 정확도를 자랑한다고 밝혔다. 여기에는 영어(97%의 정확도를 주장), 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어, 칸나다어, 말라얄람어, 폴란드어, 포르투갈어, 스페인어, 베트남어 등이 포함된다. 나머지 언어들은 정확도 범주에 따라 높음(단어 오류율 5%~10%), 양호(10%~20%), 중간(25%~50%)으로 나뉜다.
이 회사는 Scribe가 FLEURS 및 Common Voice 벤치마크 테스트에 따르면 여러 언어에서 Google Gemini 2.0 Flash와 Whisper Large V3를 능가한다고 주장한다.

이미지 제공: ElevenLabs ElevenLabs는 작년에 AI 대화 에이전트 플랫폼을 위해 음성-텍스트 기능을 구축했지만, Scribe는 독립형 음성 인식 모델에 대한 그들의 첫 번째 시도다. 지난달 TechCrunch와의 대화에서 CEO Mati Staniszewski는 음성 인식 기술을 강화하려는 계획을 밝혔다.
"우리는 대화에서 당신이 말하는 것을 더 잘 이해하고 싶다. 더 이상 콘텐츠 생성에만 집중하는 것이 아니라, 음성을 이해하고 전사하는 방향으로 나아가고 있다,"라고 Staniszewski는 말했다. "많은 사람들이 음성-텍스트 기술이 구식이라고 생각하지만, 많은 언어에서는 여전히 부족하다. 우리는 데이터를 라벨링하고 빠른 피드백을 제공하는 사내 팀을 통해 더 나은 성과를 낼 수 있다고 믿는다."
Scribe는 누가 말하는지를 구분하는 스마트 스피커 분리 기능, 정확한 자막을 위한 단어 단위 타임스탬프, 관객 웃음과 같은 음향 이벤트 자동 태깅과 같은 멋진 기능을 갖추고 있다. 또한, ElevenLabs는 고객들이 스튜디오에서 비디오 콘텐츠를 직접 전사하여 자막이나 캡션을 추가할 수 있도록 하고 있다.
현재 Scribe는 사전 녹음된 오디오에만 작동한다. 하지만 걱정하지 마라, 회사는 곧 저지연 실시간 버전을 개발 중이라고 밝혔다. 따라서 아직 회의 전사나 음성 메모 작성에는 적합하지 않다.
ElevenLabs는 Scribe로 전사된 오디오 1시간당 0.40달러를 청구한다. 경쟁력 있는 가격이지만, 일부 경쟁사들은 더 저렴한 요금으로 오디오 전사를 제공하며, 몇 가지 다른 기능을 포함하고 있다.
관련 기사
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
관련 특별 주제 추천
의견 (29)
0/500
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
ElevenLabs는 최근 1억 8천만 달러의 막대한 자금을 확보한 AI 스타트업으로, 오디오 생성 기술로 유명하다. 하지만 이제 그들은 새로운 영역으로 과감히 진출하여 첫 번째 독립형 음성-텍스트 모델인 Scribe를 출시했다.
33억 달러의 가치를 지닌 ElevenLabs는 다양한 음성 컬렉션 덕분에 텍스트-음성 변환 서비스가 필요한 많은 기업들에게 선택받아 왔다. 이제 그들은 음성 인식에 목표를 두고 Gladia, Speechmatics, AssemblyAI, Deepgram, 그리고 OpenAI의 Whisper 모델과 같은 큰 이름들과 경쟁하려 한다.
Scribe는 시작부터 99개 이상의 언어를 지원하며 만만치 않다. ElevenLabs는 25개 이상의 언어에서 단어 오류율이 5% 미만으로 뛰어난 정확도를 자랑한다고 밝혔다. 여기에는 영어(97%의 정확도를 주장), 프랑스어, 독일어, 힌디어, 인도네시아어, 일본어, 칸나다어, 말라얄람어, 폴란드어, 포르투갈어, 스페인어, 베트남어 등이 포함된다. 나머지 언어들은 정확도 범주에 따라 높음(단어 오류율 5%~10%), 양호(10%~20%), 중간(25%~50%)으로 나뉜다.
이 회사는 Scribe가 FLEURS 및 Common Voice 벤치마크 테스트에 따르면 여러 언어에서 Google Gemini 2.0 Flash와 Whisper Large V3를 능가한다고 주장한다.

ElevenLabs는 작년에 AI 대화 에이전트 플랫폼을 위해 음성-텍스트 기능을 구축했지만, Scribe는 독립형 음성 인식 모델에 대한 그들의 첫 번째 시도다. 지난달 TechCrunch와의 대화에서 CEO Mati Staniszewski는 음성 인식 기술을 강화하려는 계획을 밝혔다.
"우리는 대화에서 당신이 말하는 것을 더 잘 이해하고 싶다. 더 이상 콘텐츠 생성에만 집중하는 것이 아니라, 음성을 이해하고 전사하는 방향으로 나아가고 있다,"라고 Staniszewski는 말했다. "많은 사람들이 음성-텍스트 기술이 구식이라고 생각하지만, 많은 언어에서는 여전히 부족하다. 우리는 데이터를 라벨링하고 빠른 피드백을 제공하는 사내 팀을 통해 더 나은 성과를 낼 수 있다고 믿는다."
Scribe는 누가 말하는지를 구분하는 스마트 스피커 분리 기능, 정확한 자막을 위한 단어 단위 타임스탬프, 관객 웃음과 같은 음향 이벤트 자동 태깅과 같은 멋진 기능을 갖추고 있다. 또한, ElevenLabs는 고객들이 스튜디오에서 비디오 콘텐츠를 직접 전사하여 자막이나 캡션을 추가할 수 있도록 하고 있다.
현재 Scribe는 사전 녹음된 오디오에만 작동한다. 하지만 걱정하지 마라, 회사는 곧 저지연 실시간 버전을 개발 중이라고 밝혔다. 따라서 아직 회의 전사나 음성 메모 작성에는 적합하지 않다.
ElevenLabs는 Scribe로 전사된 오디오 1시간당 0.40달러를 청구한다. 경쟁력 있는 가격이지만, 일부 경쟁사들은 더 저렴한 요금으로 오디오 전사를 제공하며, 몇 가지 다른 기능을 포함하고 있다.
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀





집






