ElevenLabs presenta un nuevo modelo de voz a texto
ElevenLabs, una startup de IA que recientemente obtuvo una impresionante financiación de 180 millones de dólares, es famosa por sus habilidades en la generación de audio. Pero ahora, han dado un paso audaz hacia un nuevo territorio al lanzar su primer modelo independiente de conversión de voz a texto, llamado Scribe.
Valorada en 3.3 mil millones de dólares, ElevenLabs ha sido una opción principal para muchas empresas que necesitan servicios de texto a voz, gracias a su enorme colección de voces. Ahora, están poniendo su mirada en la detección de voz, con el objetivo de competir con grandes nombres como Gladia, Speechmatics, AssemblyAI, Deepgram y los modelos Whisper de OpenAI.
Scribe no se anda con rodeos: admite más de 99 idiomas desde el primer momento. ElevenLabs afirma que tiene una excelente precisión para más de 25 idiomas, con una tasa de error de palabras inferior al 5%. Hablamos de inglés (con una precisión declarada del 97%), francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita, entre otros. El resto cae en diferentes categorías de precisión: alta (tasa de error de palabras del 5% al 10%), buena (tasa de error de palabras del 10% al 20%) y moderada (del 25% al 50%).
La empresa afirma que Scribe supera a Google Gemini 2.0 Flash y Whisper Large V3 en varios idiomas, según las pruebas de referencia FLEURS y Common Voice.

Créditos de la imagen: ElevenLabs ElevenLabs en realidad construyó la parte de conversión de voz a texto para su plataforma de agente conversacional de IA el año pasado, pero Scribe es su primera incursión en un modelo independiente de detección de voz. En una charla con TechCrunch el mes pasado, el CEO Mati Staniszewski reveló sus planes para fortalecer su tecnología de detección de voz.
"Queremos mejorar en entender lo que dices en una conversación. Ya no se trata solo de generar contenido; estamos avanzando hacia la comprensión y transcripción del habla," dijo Staniszewski. "Mucha gente piensa que la conversión de voz a texto es algo del pasado, pero para muchos idiomas, sigue siendo bastante complicado. Creemos que podemos hacerlo mejor porque tenemos equipos internos para etiquetar datos y darnos retroalimentación rápida."
Scribe también tiene algunas características interesantes, como la diarización inteligente de hablantes para identificar quién está hablando, marcas de tiempo a nivel de palabra para subtítulos precisos y etiquetado automático de eventos sonoros como risas del público. Además, ElevenLabs permite a los clientes transcribir directamente contenido de video para añadir subtítulos o leyendas en su estudio.
Por ahora, Scribe solo funciona con audio pregrabado. Pero no te preocupes, la empresa dice que están trabajando en una versión en tiempo real de baja latencia pronto. Así que, aún no está listo para transcripciones de reuniones o toma de notas por voz.
ElevenLabs cobra 0.40 dólares por hora de audio transcrito para Scribe. Es un precio competitivo, pero algunos rivales ofrecen tarifas más baratas para transcripciones de audio, con algunas características diferentes incluidas.
Artículo relacionado
Maestro Esmeralda Kaizo Nuzlocke: Guía definitiva de supervivencia y estrategia
Kaizo Esmeralda se erige como uno de los hacks de ROMs de Pokémon más formidables jamás concebidos. Aunque intentar una ejecución Nuzlocke aumenta exponencialmente el desafío, la victoria sigue siendo
Cartas de presentación con IA: Guía de expertos para la presentación de trabajos a revistas
En el competitivo entorno actual de las publicaciones académicas, la elaboración de una carta de presentación eficaz puede marcar la diferencia decisiva en la aceptación de su manuscrito. Descubra cóm
EE.UU. sancionará a funcionarios extranjeros por la normativa sobre redes sociales
EE.UU. se posiciona contra la regulación mundial de contenidos digitalesEl Departamento de Estado ha lanzado esta semana una dura reprimenda diplomática contra las políticas europeas de gobernanza d
comentario (29)
0/200
MiaDavis
5 de septiembre de 2025 02:30:33 GMT+02:00
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
0
LawrenceLopez
30 de agosto de 2025 22:30:33 GMT+02:00
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
0
TimothyMartínez
21 de agosto de 2025 15:01:20 GMT+02:00
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
12 de agosto de 2025 23:00:59 GMT+02:00
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
21 de abril de 2025 03:44:55 GMT+02:00
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
20 de abril de 2025 22:36:44 GMT+02:00
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
ElevenLabs, una startup de IA que recientemente obtuvo una impresionante financiación de 180 millones de dólares, es famosa por sus habilidades en la generación de audio. Pero ahora, han dado un paso audaz hacia un nuevo territorio al lanzar su primer modelo independiente de conversión de voz a texto, llamado Scribe.
Valorada en 3.3 mil millones de dólares, ElevenLabs ha sido una opción principal para muchas empresas que necesitan servicios de texto a voz, gracias a su enorme colección de voces. Ahora, están poniendo su mirada en la detección de voz, con el objetivo de competir con grandes nombres como Gladia, Speechmatics, AssemblyAI, Deepgram y los modelos Whisper de OpenAI.
Scribe no se anda con rodeos: admite más de 99 idiomas desde el primer momento. ElevenLabs afirma que tiene una excelente precisión para más de 25 idiomas, con una tasa de error de palabras inferior al 5%. Hablamos de inglés (con una precisión declarada del 97%), francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita, entre otros. El resto cae en diferentes categorías de precisión: alta (tasa de error de palabras del 5% al 10%), buena (tasa de error de palabras del 10% al 20%) y moderada (del 25% al 50%).
La empresa afirma que Scribe supera a Google Gemini 2.0 Flash y Whisper Large V3 en varios idiomas, según las pruebas de referencia FLEURS y Common Voice.
ElevenLabs en realidad construyó la parte de conversión de voz a texto para su plataforma de agente conversacional de IA el año pasado, pero Scribe es su primera incursión en un modelo independiente de detección de voz. En una charla con TechCrunch el mes pasado, el CEO Mati Staniszewski reveló sus planes para fortalecer su tecnología de detección de voz.
"Queremos mejorar en entender lo que dices en una conversación. Ya no se trata solo de generar contenido; estamos avanzando hacia la comprensión y transcripción del habla," dijo Staniszewski. "Mucha gente piensa que la conversión de voz a texto es algo del pasado, pero para muchos idiomas, sigue siendo bastante complicado. Creemos que podemos hacerlo mejor porque tenemos equipos internos para etiquetar datos y darnos retroalimentación rápida."
Scribe también tiene algunas características interesantes, como la diarización inteligente de hablantes para identificar quién está hablando, marcas de tiempo a nivel de palabra para subtítulos precisos y etiquetado automático de eventos sonoros como risas del público. Además, ElevenLabs permite a los clientes transcribir directamente contenido de video para añadir subtítulos o leyendas en su estudio.
Por ahora, Scribe solo funciona con audio pregrabado. Pero no te preocupes, la empresa dice que están trabajando en una versión en tiempo real de baja latencia pronto. Así que, aún no está listo para transcripciones de reuniones o toma de notas por voz.
ElevenLabs cobra 0.40 dólares por hora de audio transcrito para Scribe. Es un precio competitivo, pero algunos rivales ofrecen tarifas más baratas para transcripciones de audio, con algunas características diferentes incluidas.




스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔




A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!




Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊












