ElevenLabs раскрывает новую модель речи к тексту
ElevenLabs, стартап в области искусственного интеллекта, недавно получивший внушительные 180 миллионов долларов финансирования, известен своими навыками в создании аудио. Но теперь они сделали смелый шаг в новую область, запустив свою первую автономную модель преобразования речи в текст, названную Scribe.
Оцениваемая в 3,3 миллиарда долларов, ElevenLabs была предпочтительным выбором для многих компаний, нуждающихся в услугах преобразования текста в речь, благодаря их огромной коллекции голосов. Теперь они нацелились на распознавание речи, стремясь конкурировать с крупными именами, такими как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.
Scribe не шутит — он поддерживает более 99 языков с самого начала. ElevenLabs утверждает, что модель обладает отличной точностью для более чем 25 языков с уровнем ошибок по словам менее 5%. Речь идет об английском (с заявленной точностью 97%), французском, немецком, хинди, индонезийском, японском, каннада, малаялам, польском, португальском, испанском и вьетнамском, среди прочих. Остальные языки попадают в разные категории точности: высокая (уровень ошибок от 5% до 10%), хорошая (от 10% до 20%) и умеренная (от 25% до 50%).
Компания утверждает, что Scribe превосходит Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках согласно тестам FLEURS и Common Voice.

Источник изображения: ElevenLabs ElevenLabs фактически разработала компонент преобразования речи в текст для своей платформы conversational AI в прошлом году, но Scribe — это их первая попытка создания автономной модели распознавания речи. В разговоре с TechCrunch в прошлом месяце генеральный директор Мати Станишевски раскрыл планы по усилению их технологий распознавания речи.
"Мы хотим лучше понимать, что вы говорите в разговоре. Мы больше не только о создании контента; мы движемся к пониманию и транскрибированию речи," — сказал Станишевски. "Многие считают, что преобразование речи в текст — это старая новость, но для многих языков это всё ещё довольно сложно. Мы думаем, что можем сделать лучше, потому что у нас есть внутренние команды для маркировки данных и быстрой обратной связи."
У Scribe есть и крутые функции, такие как интеллектуальная диаризация спикеров, чтобы определить, кто говорит, временные метки на уровне слов для точных субтитров и автоматическая маркировка звуковых событий, таких как смех аудитории. Кроме того, ElevenLabs позволяет клиентам напрямую транскрибировать видеоконтент для добавления субтитров или подписей в их студии.
На данный момент Scribe работает только с предварительно записанным аудио. Но не волнуйтесь, компания говорит, что скоро появится версия с низкой задержкой для работы в реальном времени. Так что пока она не совсем готова для транскрибирования встреч или голосовых заметок.
ElevenLabs взимает 0,40 доллара за час транскрибированного аудио для Scribe. Это конкурентоспособная цена, но некоторые конкуренты предлагают более дешевые тарифы на транскрипцию аудио с несколькими дополнительными функциями.
Связанная статья
Сопроводительные письма на основе искусственного интеллекта: Экспертное руководство по подаче документов в журнал
В сегодняшней конкурентной среде научных изданий составление эффективного сопроводительного письма может сыграть решающую роль в принятии вашей рукописи. Узнайте, как инструменты с искусственным интел
США введут санкции против иностранных чиновников из-за правил пользования социальными сетями
США выступают против глобального регулирования цифрового контентаНа этой неделе Государственный департамент США выступил с резким дипломатическим обвинением в адрес европейской политики управления ц
Окончательное руководство по обобщающим анализаторам видео на YouTube с поддержкой искусственного интеллекта
В нашем перенасыщенном информацией цифровом ландшафте, обобщающие видео на YouTube с помощью искусственного интеллекта стали незаменимы для эффективного потребления контента. В этом подробном руководс
Комментарии (29)
MiaDavis
5 сентября 2025 г., 3:30:33 GMT+03:00
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
0
LawrenceLopez
30 августа 2025 г., 23:30:33 GMT+03:00
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
0
TimothyMartínez
21 августа 2025 г., 16:01:20 GMT+03:00
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
13 августа 2025 г., 0:00:59 GMT+03:00
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
21 апреля 2025 г., 4:44:55 GMT+03:00
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
20 апреля 2025 г., 23:36:44 GMT+03:00
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
ElevenLabs, стартап в области искусственного интеллекта, недавно получивший внушительные 180 миллионов долларов финансирования, известен своими навыками в создании аудио. Но теперь они сделали смелый шаг в новую область, запустив свою первую автономную модель преобразования речи в текст, названную Scribe.
Оцениваемая в 3,3 миллиарда долларов, ElevenLabs была предпочтительным выбором для многих компаний, нуждающихся в услугах преобразования текста в речь, благодаря их огромной коллекции голосов. Теперь они нацелились на распознавание речи, стремясь конкурировать с крупными именами, такими как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.
Scribe не шутит — он поддерживает более 99 языков с самого начала. ElevenLabs утверждает, что модель обладает отличной точностью для более чем 25 языков с уровнем ошибок по словам менее 5%. Речь идет об английском (с заявленной точностью 97%), французском, немецком, хинди, индонезийском, японском, каннада, малаялам, польском, португальском, испанском и вьетнамском, среди прочих. Остальные языки попадают в разные категории точности: высокая (уровень ошибок от 5% до 10%), хорошая (от 10% до 20%) и умеренная (от 25% до 50%).
Компания утверждает, что Scribe превосходит Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках согласно тестам FLEURS и Common Voice.
ElevenLabs фактически разработала компонент преобразования речи в текст для своей платформы conversational AI в прошлом году, но Scribe — это их первая попытка создания автономной модели распознавания речи. В разговоре с TechCrunch в прошлом месяце генеральный директор Мати Станишевски раскрыл планы по усилению их технологий распознавания речи.
"Мы хотим лучше понимать, что вы говорите в разговоре. Мы больше не только о создании контента; мы движемся к пониманию и транскрибированию речи," — сказал Станишевски. "Многие считают, что преобразование речи в текст — это старая новость, но для многих языков это всё ещё довольно сложно. Мы думаем, что можем сделать лучше, потому что у нас есть внутренние команды для маркировки данных и быстрой обратной связи."
У Scribe есть и крутые функции, такие как интеллектуальная диаризация спикеров, чтобы определить, кто говорит, временные метки на уровне слов для точных субтитров и автоматическая маркировка звуковых событий, таких как смех аудитории. Кроме того, ElevenLabs позволяет клиентам напрямую транскрибировать видеоконтент для добавления субтитров или подписей в их студии.
На данный момент Scribe работает только с предварительно записанным аудио. Но не волнуйтесь, компания говорит, что скоро появится версия с низкой задержкой для работы в реальном времени. Так что пока она не совсем готова для транскрибирования встреч или голосовых заметок.
ElevenLabs взимает 0,40 доллара за час транскрибированного аудио для Scribe. Это конкурентоспособная цена, но некоторые конкуренты предлагают более дешевые тарифы на транскрипцию аудио с несколькими дополнительными функциями.




스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔




A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!




Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊












