ElevenLabs раскрывает новую модель речи к тексту
ElevenLabs, стартап в области искусственного интеллекта, недавно получивший внушительные 180 миллионов долларов финансирования, известен своими навыками в создании аудио. Но теперь они сделали смелый шаг в новую область, запустив свою первую автономную модель преобразования речи в текст, названную Scribe.
Оцениваемая в 3,3 миллиарда долларов, ElevenLabs была предпочтительным выбором для многих компаний, нуждающихся в услугах преобразования текста в речь, благодаря их огромной коллекции голосов. Теперь они нацелились на распознавание речи, стремясь конкурировать с крупными именами, такими как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.
Scribe не шутит — он поддерживает более 99 языков с самого начала. ElevenLabs утверждает, что модель обладает отличной точностью для более чем 25 языков с уровнем ошибок по словам менее 5%. Речь идет об английском (с заявленной точностью 97%), французском, немецком, хинди, индонезийском, японском, каннада, малаялам, польском, португальском, испанском и вьетнамском, среди прочих. Остальные языки попадают в разные категории точности: высокая (уровень ошибок от 5% до 10%), хорошая (от 10% до 20%) и умеренная (от 25% до 50%).
Компания утверждает, что Scribe превосходит Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках согласно тестам FLEURS и Common Voice.

Источник изображения: ElevenLabs ElevenLabs фактически разработала компонент преобразования речи в текст для своей платформы conversational AI в прошлом году, но Scribe — это их первая попытка создания автономной модели распознавания речи. В разговоре с TechCrunch в прошлом месяце генеральный директор Мати Станишевски раскрыл планы по усилению их технологий распознавания речи.
"Мы хотим лучше понимать, что вы говорите в разговоре. Мы больше не только о создании контента; мы движемся к пониманию и транскрибированию речи," — сказал Станишевски. "Многие считают, что преобразование речи в текст — это старая новость, но для многих языков это всё ещё довольно сложно. Мы думаем, что можем сделать лучше, потому что у нас есть внутренние команды для маркировки данных и быстрой обратной связи."
У Scribe есть и крутые функции, такие как интеллектуальная диаризация спикеров, чтобы определить, кто говорит, временные метки на уровне слов для точных субтитров и автоматическая маркировка звуковых событий, таких как смех аудитории. Кроме того, ElevenLabs позволяет клиентам напрямую транскрибировать видеоконтент для добавления субтитров или подписей в их студии.
На данный момент Scribe работает только с предварительно записанным аудио. Но не волнуйтесь, компания говорит, что скоро появится версия с низкой задержкой для работы в реальном времени. Так что пока она не совсем готова для транскрибирования встреч или голосовых заметок.
ElevenLabs взимает 0,40 доллара за час транскрибированного аудио для Scribe. Это конкурентоспособная цена, но некоторые конкуренты предлагают более дешевые тарифы на транскрипцию аудио с несколькими дополнительными функциями.
Связанная статья
Qodo сотрудничает с Google Cloud для предоставления бесплатных инструментов AI для проверки кода разработчикам
Qodo, израильский стартап в области AI-кодирования, ориентированный на качество кода, начал сотрудничество с Google Cloud для повышения целостности программного обеспечения, созданного AI.По мере рост
DeepMind's AI Secures Gold at 2025 Math Olympiad
ИИ DeepMind достиг потрясающего прорыва в математическом мышлении, завоевав золотую медаль на Международной математической олимпиаде (IMO) 2025 года, всего через год после получения серебра в 2024 год
AI-управляемый Parallax Maker: Создание динамичных 2.5D анимаций
Преобразуйте статические изображения в захватывающие 2.5D анимации с помощью Parallax Maker. Этот инструмент с открытым исходным кодом позволяет художникам и разработчикам игр добавлять глубину и движ
Комментарии (27)
TimothyMartínez
21 августа 2025 г., 16:01:20 GMT+03:00
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
13 августа 2025 г., 0:00:59 GMT+03:00
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
21 апреля 2025 г., 4:44:55 GMT+03:00
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
20 апреля 2025 г., 23:36:44 GMT+03:00
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
PaulBrown
20 апреля 2025 г., 5:47:04 GMT+03:00
ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀
0
HarryLewis
20 апреля 2025 г., 4:23:49 GMT+03:00
ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀
0
ElevenLabs, стартап в области искусственного интеллекта, недавно получивший внушительные 180 миллионов долларов финансирования, известен своими навыками в создании аудио. Но теперь они сделали смелый шаг в новую область, запустив свою первую автономную модель преобразования речи в текст, названную Scribe.
Оцениваемая в 3,3 миллиарда долларов, ElevenLabs была предпочтительным выбором для многих компаний, нуждающихся в услугах преобразования текста в речь, благодаря их огромной коллекции голосов. Теперь они нацелились на распознавание речи, стремясь конкурировать с крупными именами, такими как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.
Scribe не шутит — он поддерживает более 99 языков с самого начала. ElevenLabs утверждает, что модель обладает отличной точностью для более чем 25 языков с уровнем ошибок по словам менее 5%. Речь идет об английском (с заявленной точностью 97%), французском, немецком, хинди, индонезийском, японском, каннада, малаялам, польском, португальском, испанском и вьетнамском, среди прочих. Остальные языки попадают в разные категории точности: высокая (уровень ошибок от 5% до 10%), хорошая (от 10% до 20%) и умеренная (от 25% до 50%).
Компания утверждает, что Scribe превосходит Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках согласно тестам FLEURS и Common Voice.
ElevenLabs фактически разработала компонент преобразования речи в текст для своей платформы conversational AI в прошлом году, но Scribe — это их первая попытка создания автономной модели распознавания речи. В разговоре с TechCrunch в прошлом месяце генеральный директор Мати Станишевски раскрыл планы по усилению их технологий распознавания речи.
"Мы хотим лучше понимать, что вы говорите в разговоре. Мы больше не только о создании контента; мы движемся к пониманию и транскрибированию речи," — сказал Станишевски. "Многие считают, что преобразование речи в текст — это старая новость, но для многих языков это всё ещё довольно сложно. Мы думаем, что можем сделать лучше, потому что у нас есть внутренние команды для маркировки данных и быстрой обратной связи."
У Scribe есть и крутые функции, такие как интеллектуальная диаризация спикеров, чтобы определить, кто говорит, временные метки на уровне слов для точных субтитров и автоматическая маркировка звуковых событий, таких как смех аудитории. Кроме того, ElevenLabs позволяет клиентам напрямую транскрибировать видеоконтент для добавления субтитров или подписей в их студии.
На данный момент Scribe работает только с предварительно записанным аудио. Но не волнуйтесь, компания говорит, что скоро появится версия с низкой задержкой для работы в реальном времени. Так что пока она не совсем готова для транскрибирования встреч или голосовых заметок.
ElevenLabs взимает 0,40 доллара за час транскрибированного аудио для Scribe. Это конкурентоспособная цена, но некоторые конкуренты предлагают более дешевые тарифы на транскрипцию аудио с несколькими дополнительными функциями.



Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊




ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀




ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀












