ElevenLabs presenta un nuevo modelo de voz a texto
ElevenLabs, una startup de IA que recientemente obtuvo una impresionante financiación de 180 millones de dólares, es famosa por sus habilidades en la generación de audio. Pero ahora, han dado un paso audaz hacia un nuevo territorio al lanzar su primer modelo independiente de conversión de voz a texto, llamado Scribe.
Valorada en 3.3 mil millones de dólares, ElevenLabs ha sido una opción principal para muchas empresas que necesitan servicios de texto a voz, gracias a su enorme colección de voces. Ahora, están poniendo su mirada en la detección de voz, con el objetivo de competir con grandes nombres como Gladia, Speechmatics, AssemblyAI, Deepgram y los modelos Whisper de OpenAI.
Scribe no se anda con rodeos: admite más de 99 idiomas desde el primer momento. ElevenLabs afirma que tiene una excelente precisión para más de 25 idiomas, con una tasa de error de palabras inferior al 5%. Hablamos de inglés (con una precisión declarada del 97%), francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita, entre otros. El resto cae en diferentes categorías de precisión: alta (tasa de error de palabras del 5% al 10%), buena (tasa de error de palabras del 10% al 20%) y moderada (del 25% al 50%).
La empresa afirma que Scribe supera a Google Gemini 2.0 Flash y Whisper Large V3 en varios idiomas, según las pruebas de referencia FLEURS y Common Voice.

Créditos de la imagen: ElevenLabs ElevenLabs en realidad construyó la parte de conversión de voz a texto para su plataforma de agente conversacional de IA el año pasado, pero Scribe es su primera incursión en un modelo independiente de detección de voz. En una charla con TechCrunch el mes pasado, el CEO Mati Staniszewski reveló sus planes para fortalecer su tecnología de detección de voz.
"Queremos mejorar en entender lo que dices en una conversación. Ya no se trata solo de generar contenido; estamos avanzando hacia la comprensión y transcripción del habla," dijo Staniszewski. "Mucha gente piensa que la conversión de voz a texto es algo del pasado, pero para muchos idiomas, sigue siendo bastante complicado. Creemos que podemos hacerlo mejor porque tenemos equipos internos para etiquetar datos y darnos retroalimentación rápida."
Scribe también tiene algunas características interesantes, como la diarización inteligente de hablantes para identificar quién está hablando, marcas de tiempo a nivel de palabra para subtítulos precisos y etiquetado automático de eventos sonoros como risas del público. Además, ElevenLabs permite a los clientes transcribir directamente contenido de video para añadir subtítulos o leyendas en su estudio.
Por ahora, Scribe solo funciona con audio pregrabado. Pero no te preocupes, la empresa dice que están trabajando en una versión en tiempo real de baja latencia pronto. Así que, aún no está listo para transcripciones de reuniones o toma de notas por voz.
ElevenLabs cobra 0.40 dólares por hora de audio transcrito para Scribe. Es un precio competitivo, pero algunos rivales ofrecen tarifas más baratas para transcripciones de audio, con algunas características diferentes incluidas.
Artículo relacionado
La primera serie de AIGC de Yaoke Media, «El misterio del bronce en Qinling», se estrena hoy con protagonistas creados por IA
Hoy se estrena oficialmente la miniserie de misterio y fantasía con IA generativa (AIGC) de Yaoke Media, «La historia secreta del bronce de Qinling». Protagonizada por los dos primeros actores de IA c
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas
WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
Recomendaciones de temas especiales relacionados
comentario (29)
0/500
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
ElevenLabs, una startup de IA que recientemente obtuvo una impresionante financiación de 180 millones de dólares, es famosa por sus habilidades en la generación de audio. Pero ahora, han dado un paso audaz hacia un nuevo territorio al lanzar su primer modelo independiente de conversión de voz a texto, llamado Scribe.
Valorada en 3.3 mil millones de dólares, ElevenLabs ha sido una opción principal para muchas empresas que necesitan servicios de texto a voz, gracias a su enorme colección de voces. Ahora, están poniendo su mirada en la detección de voz, con el objetivo de competir con grandes nombres como Gladia, Speechmatics, AssemblyAI, Deepgram y los modelos Whisper de OpenAI.
Scribe no se anda con rodeos: admite más de 99 idiomas desde el primer momento. ElevenLabs afirma que tiene una excelente precisión para más de 25 idiomas, con una tasa de error de palabras inferior al 5%. Hablamos de inglés (con una precisión declarada del 97%), francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita, entre otros. El resto cae en diferentes categorías de precisión: alta (tasa de error de palabras del 5% al 10%), buena (tasa de error de palabras del 10% al 20%) y moderada (del 25% al 50%).
La empresa afirma que Scribe supera a Google Gemini 2.0 Flash y Whisper Large V3 en varios idiomas, según las pruebas de referencia FLEURS y Common Voice.

ElevenLabs en realidad construyó la parte de conversión de voz a texto para su plataforma de agente conversacional de IA el año pasado, pero Scribe es su primera incursión en un modelo independiente de detección de voz. En una charla con TechCrunch el mes pasado, el CEO Mati Staniszewski reveló sus planes para fortalecer su tecnología de detección de voz.
"Queremos mejorar en entender lo que dices en una conversación. Ya no se trata solo de generar contenido; estamos avanzando hacia la comprensión y transcripción del habla," dijo Staniszewski. "Mucha gente piensa que la conversión de voz a texto es algo del pasado, pero para muchos idiomas, sigue siendo bastante complicado. Creemos que podemos hacerlo mejor porque tenemos equipos internos para etiquetar datos y darnos retroalimentación rápida."
Scribe también tiene algunas características interesantes, como la diarización inteligente de hablantes para identificar quién está hablando, marcas de tiempo a nivel de palabra para subtítulos precisos y etiquetado automático de eventos sonoros como risas del público. Además, ElevenLabs permite a los clientes transcribir directamente contenido de video para añadir subtítulos o leyendas en su estudio.
Por ahora, Scribe solo funciona con audio pregrabado. Pero no te preocupes, la empresa dice que están trabajando en una versión en tiempo real de baja latencia pronto. Así que, aún no está listo para transcripciones de reuniones o toma de notas por voz.
ElevenLabs cobra 0.40 dólares por hora de audio transcrito para Scribe. Es un precio competitivo, pero algunos rivales ofrecen tarifas más baratas para transcripciones de audio, con algunas características diferentes incluidas.
La primera serie de AIGC de Yaoke Media, «El misterio del bronce en Qinling», se estrena hoy con protagonistas creados por IA
Hoy se estrena oficialmente la miniserie de misterio y fantasía con IA generativa (AIGC) de Yaoke Media, «La historia secreta del bronce de Qinling». Protagonizada por los dos primeros actores de IA c
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas
WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀





Hogar






