Elevenlabs revela um novo modelo de fala para texto
ElevenLabs, uma startup de IA que recentemente garantiu impressionantes $180 milhões em financiamento, é famosa por suas habilidades de geração de áudio. Mas agora, eles deram um passo ousado em novo território ao lançar seu primeiro modelo independente de fala para texto, chamado Scribe.
Avaliada em $3,3 bilhões, a ElevenLabs tem sido a escolha de muitas empresas que precisam de serviços de texto para fala, graças à sua vasta coleção de vozes. Agora, eles estão mirando na detecção de fala, com o objetivo de enfrentar grandes nomes como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.
O Scribe não está brincando — ele suporta mais de 99 idiomas logo de cara. A ElevenLabs diz que ele tem excelente precisão para mais de 25 idiomas, com uma taxa de erro de palavras inferior a 5%. Estamos falando de inglês (com uma precisão declarada de 97%), francês, alemão, hindi, indonésio, japonês, canará, malaiala, polonês, português, espanhol e vietnamita, entre outros. Os demais se enquadram em diferentes categorias de precisão: alta (taxa de erro de palavras de 5% a 10%), boa (taxa de erro de palavras de 10% a 20%) e moderada (25% a 50%).
A empresa afirma que o Scribe supera o Google Gemini 2.0 Flash e o Whisper Large V3 em vários idiomas, de acordo com os testes de benchmark FLEURS & Common Voice.

Créditos da Imagem: ElevenLabs A ElevenLabs na verdade construiu a parte de fala para texto para sua plataforma de agente conversacional de IA no último ano, mas o Scribe é sua primeira tentativa em um modelo independente de detecção de fala. Em uma conversa com a TechCrunch no último mês, o CEO Mati Staniszewski revelou os planos de fortalecer sua tecnologia de detecção de fala.
"Queremos melhorar na compreensão do que você está dizendo em uma conversa. Não se trata mais apenas de gerar conteúdo; estamos avançando para entender e transcrever a fala," disse Staniszewski. "Muitas pessoas pensam que fala para texto é algo ultrapassado, mas para muitos idiomas, ainda é bastante complicado. Achamos que podemos fazer melhor porque temos equipes internas para rotular dados e nos dar feedback rápido."
O Scribe também tem alguns recursos legais, como diarização inteligente de falantes para identificar quem está falando, carimbos de tempo no nível da palavra para legendas precisas e marcação automática de eventos sonoros, como risadas do público. Além disso, a ElevenLabs está permitindo que os clientes transcrevam diretamente conteúdo de vídeo para adicionar legendas ou captions em seu estúdio.
Por enquanto, o Scribe funciona apenas com áudio pré-gravado. Mas não se preocupe, a empresa diz que está trabalhando em uma versão em tempo real de baixa latência em breve. Portanto, ainda não está pronto para transcrições de reuniões ou anotações por voz.
A ElevenLabs está cobrando $0,40 por hora de áudio transcrito para o Scribe. É um preço competitivo, mas alguns concorrentes estão oferecendo taxas mais baratas para transcrições de áudio, com alguns recursos diferentes incluídos.
Artigo relacionado
Topaz DeNoise AI: a melhor ferramenta de redução de ruído em 2025 - Guia completo
No competitivo mundo da fotografia digital, a nitidez da imagem continua sendo fundamental. Fotógrafos de todos os níveis de habilidade enfrentam o ruído digital que compromete fotos que, de outra for
Master Emerald Kaizo Nuzlocke: Guia definitivo de sobrevivência e estratégia
O Emerald Kaizo é um dos mais formidáveis hacks de ROM de Pokémon já concebidos. Embora a tentativa de executar um Nuzlocke aumente exponencialmente o desafio, a vitória continua sendo possível por me
Cartas de apresentação com tecnologia de IA: Guia especializado para submissão de artigos em periódicos
No competitivo ambiente de publicação acadêmica de hoje, a elaboração de uma carta de apresentação eficaz pode fazer a diferença crucial na aceitação do seu manuscrito. Descubra como as ferramentas co
Comentários (29)
0/200
MiaDavis
5 de Setembro de 2025 à33 01:30:33 WEST
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
0
LawrenceLopez
30 de Agosto de 2025 à33 21:30:33 WEST
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
0
TimothyMartínez
21 de Agosto de 2025 à20 14:01:20 WEST
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
0
MatthewTaylor
12 de Agosto de 2025 à59 22:00:59 WEST
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
0
RogerRoberts
21 de Abril de 2025 à55 02:44:55 WEST
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
0
RalphHill
20 de Abril de 2025 à44 21:36:44 WEST
O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊
0
ElevenLabs, uma startup de IA que recentemente garantiu impressionantes $180 milhões em financiamento, é famosa por suas habilidades de geração de áudio. Mas agora, eles deram um passo ousado em novo território ao lançar seu primeiro modelo independente de fala para texto, chamado Scribe.
Avaliada em $3,3 bilhões, a ElevenLabs tem sido a escolha de muitas empresas que precisam de serviços de texto para fala, graças à sua vasta coleção de vozes. Agora, eles estão mirando na detecção de fala, com o objetivo de enfrentar grandes nomes como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.
O Scribe não está brincando — ele suporta mais de 99 idiomas logo de cara. A ElevenLabs diz que ele tem excelente precisão para mais de 25 idiomas, com uma taxa de erro de palavras inferior a 5%. Estamos falando de inglês (com uma precisão declarada de 97%), francês, alemão, hindi, indonésio, japonês, canará, malaiala, polonês, português, espanhol e vietnamita, entre outros. Os demais se enquadram em diferentes categorias de precisão: alta (taxa de erro de palavras de 5% a 10%), boa (taxa de erro de palavras de 10% a 20%) e moderada (25% a 50%).
A empresa afirma que o Scribe supera o Google Gemini 2.0 Flash e o Whisper Large V3 em vários idiomas, de acordo com os testes de benchmark FLEURS & Common Voice.
A ElevenLabs na verdade construiu a parte de fala para texto para sua plataforma de agente conversacional de IA no último ano, mas o Scribe é sua primeira tentativa em um modelo independente de detecção de fala. Em uma conversa com a TechCrunch no último mês, o CEO Mati Staniszewski revelou os planos de fortalecer sua tecnologia de detecção de fala.
"Queremos melhorar na compreensão do que você está dizendo em uma conversa. Não se trata mais apenas de gerar conteúdo; estamos avançando para entender e transcrever a fala," disse Staniszewski. "Muitas pessoas pensam que fala para texto é algo ultrapassado, mas para muitos idiomas, ainda é bastante complicado. Achamos que podemos fazer melhor porque temos equipes internas para rotular dados e nos dar feedback rápido."
O Scribe também tem alguns recursos legais, como diarização inteligente de falantes para identificar quem está falando, carimbos de tempo no nível da palavra para legendas precisas e marcação automática de eventos sonoros, como risadas do público. Além disso, a ElevenLabs está permitindo que os clientes transcrevam diretamente conteúdo de vídeo para adicionar legendas ou captions em seu estúdio.
Por enquanto, o Scribe funciona apenas com áudio pré-gravado. Mas não se preocupe, a empresa diz que está trabalhando em uma versão em tempo real de baixa latência em breve. Portanto, ainda não está pronto para transcrições de reuniões ou anotações por voz.
A ElevenLabs está cobrando $0,40 por hora de áudio transcrito para o Scribe. É um preço competitivo, mas alguns concorrentes estão oferecendo taxas mais baratas para transcrições de áudio, com alguns recursos diferentes incluídos.




스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔




A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!




Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎




Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!




¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀




O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊












