opción
Hogar
Noticias
ElevenLabs presenta un nuevo modelo de voz a texto

ElevenLabs presenta un nuevo modelo de voz a texto

10 de abril de 2025
114

ElevenLabs, una startup de IA que recientemente obtuvo una impresionante financiación de 180 millones de dólares, es famosa por sus habilidades en la generación de audio. Pero ahora, han dado un paso audaz hacia un nuevo territorio al lanzar su primer modelo independiente de conversión de voz a texto, llamado Scribe.

Valorada en 3.3 mil millones de dólares, ElevenLabs ha sido una opción principal para muchas empresas que necesitan servicios de texto a voz, gracias a su enorme colección de voces. Ahora, están poniendo su mirada en la detección de voz, con el objetivo de competir con grandes nombres como Gladia, Speechmatics, AssemblyAI, Deepgram y los modelos Whisper de OpenAI.

Scribe no se anda con rodeos: admite más de 99 idiomas desde el primer momento. ElevenLabs afirma que tiene una excelente precisión para más de 25 idiomas, con una tasa de error de palabras inferior al 5%. Hablamos de inglés (con una precisión declarada del 97%), francés, alemán, hindi, indonesio, japonés, kannada, malayalam, polaco, portugués, español y vietnamita, entre otros. El resto cae en diferentes categorías de precisión: alta (tasa de error de palabras del 5% al 10%), buena (tasa de error de palabras del 10% al 20%) y moderada (del 25% al 50%).

La empresa afirma que Scribe supera a Google Gemini 2.0 Flash y Whisper Large V3 en varios idiomas, según las pruebas de referencia FLEURS y Common Voice.

Créditos de la imagen: ElevenLabs

ElevenLabs en realidad construyó la parte de conversión de voz a texto para su plataforma de agente conversacional de IA el año pasado, pero Scribe es su primera incursión en un modelo independiente de detección de voz. En una charla con TechCrunch el mes pasado, el CEO Mati Staniszewski reveló sus planes para fortalecer su tecnología de detección de voz.

"Queremos mejorar en entender lo que dices en una conversación. Ya no se trata solo de generar contenido; estamos avanzando hacia la comprensión y transcripción del habla," dijo Staniszewski. "Mucha gente piensa que la conversión de voz a texto es algo del pasado, pero para muchos idiomas, sigue siendo bastante complicado. Creemos que podemos hacerlo mejor porque tenemos equipos internos para etiquetar datos y darnos retroalimentación rápida."

Scribe también tiene algunas características interesantes, como la diarización inteligente de hablantes para identificar quién está hablando, marcas de tiempo a nivel de palabra para subtítulos precisos y etiquetado automático de eventos sonoros como risas del público. Además, ElevenLabs permite a los clientes transcribir directamente contenido de video para añadir subtítulos o leyendas en su estudio.

Por ahora, Scribe solo funciona con audio pregrabado. Pero no te preocupes, la empresa dice que están trabajando en una versión en tiempo real de baja latencia pronto. Así que, aún no está listo para transcripciones de reuniones o toma de notas por voz.

ElevenLabs cobra 0.40 dólares por hora de audio transcrito para Scribe. Es un precio competitivo, pero algunos rivales ofrecen tarifas más baratas para transcripciones de audio, con algunas características diferentes incluidas.

Artículo relacionado
Traductor de Voz AI G5 Pro: Comunicación Global Sin Fisuras Traductor de Voz AI G5 Pro: Comunicación Global Sin Fisuras En un mundo donde la conectividad global es esencial, superar las barreras lingüísticas es más importante que nunca. El Traductor de Voz AI G5 Pro ofrece una solución práctica con sus funciones de tra
Eleve sus imágenes con HitPaw AI Photo Enhancer: Guía completa Eleve sus imágenes con HitPaw AI Photo Enhancer: Guía completa ¿Quiere transformar su experiencia de edición de fotos? Gracias a la inteligencia artificial de vanguardia, mejorar sus imágenes ahora es effortless. Esta guía detallada explora el HitPaw AI Photo Enh
Creación de Música con IA: Crea Canciones y Videos sin Esfuerzo Creación de Música con IA: Crea Canciones y Videos sin Esfuerzo La creación de música puede ser compleja, requiriendo tiempo, recursos y experiencia. La inteligencia artificial ha transformado este proceso, haciéndolo simple y accesible. Esta guía destaca cómo la
comentario (27)
0/200
TimothyMartínez
TimothyMartínez 21 de agosto de 2025 15:01:20 GMT+02:00

Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎

MatthewTaylor
MatthewTaylor 12 de agosto de 2025 23:00:59 GMT+02:00

Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!

RogerRoberts
RogerRoberts 21 de abril de 2025 03:44:55 GMT+02:00

¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀

RalphHill
RalphHill 20 de abril de 2025 22:36:44 GMT+02:00

O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊

PaulBrown
PaulBrown 20 de abril de 2025 04:47:04 GMT+02:00

ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀

HarryLewis
HarryLewis 20 de abril de 2025 03:23:49 GMT+02:00

ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀

Volver arriba
OR