Elevenlabs revela um novo modelo de fala para texto
ElevenLabs, uma startup de IA que recentemente garantiu impressionantes $180 milhões em financiamento, é famosa por suas habilidades de geração de áudio. Mas agora, eles deram um passo ousado em novo território ao lançar seu primeiro modelo independente de fala para texto, chamado Scribe.
Avaliada em $3,3 bilhões, a ElevenLabs tem sido a escolha de muitas empresas que precisam de serviços de texto para fala, graças à sua vasta coleção de vozes. Agora, eles estão mirando na detecção de fala, com o objetivo de enfrentar grandes nomes como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.
O Scribe não está brincando — ele suporta mais de 99 idiomas logo de cara. A ElevenLabs diz que ele tem excelente precisão para mais de 25 idiomas, com uma taxa de erro de palavras inferior a 5%. Estamos falando de inglês (com uma precisão declarada de 97%), francês, alemão, hindi, indonésio, japonês, canará, malaiala, polonês, português, espanhol e vietnamita, entre outros. Os demais se enquadram em diferentes categorias de precisão: alta (taxa de erro de palavras de 5% a 10%), boa (taxa de erro de palavras de 10% a 20%) e moderada (25% a 50%).
A empresa afirma que o Scribe supera o Google Gemini 2.0 Flash e o Whisper Large V3 em vários idiomas, de acordo com os testes de benchmark FLEURS & Common Voice.

Créditos da Imagem: ElevenLabs A ElevenLabs na verdade construiu a parte de fala para texto para sua plataforma de agente conversacional de IA no último ano, mas o Scribe é sua primeira tentativa em um modelo independente de detecção de fala. Em uma conversa com a TechCrunch no último mês, o CEO Mati Staniszewski revelou os planos de fortalecer sua tecnologia de detecção de fala.
"Queremos melhorar na compreensão do que você está dizendo em uma conversa. Não se trata mais apenas de gerar conteúdo; estamos avançando para entender e transcrever a fala," disse Staniszewski. "Muitas pessoas pensam que fala para texto é algo ultrapassado, mas para muitos idiomas, ainda é bastante complicado. Achamos que podemos fazer melhor porque temos equipes internas para rotular dados e nos dar feedback rápido."
O Scribe também tem alguns recursos legais, como diarização inteligente de falantes para identificar quem está falando, carimbos de tempo no nível da palavra para legendas precisas e marcação automática de eventos sonoros, como risadas do público. Além disso, a ElevenLabs está permitindo que os clientes transcrevam diretamente conteúdo de vídeo para adicionar legendas ou captions em seu estúdio.
Por enquanto, o Scribe funciona apenas com áudio pré-gravado. Mas não se preocupe, a empresa diz que está trabalhando em uma versão em tempo real de baixa latência em breve. Portanto, ainda não está pronto para transcrições de reuniões ou anotações por voz.
A ElevenLabs está cobrando $0,40 por hora de áudio transcrito para o Scribe. É um preço competitivo, mas alguns concorrentes estão oferecendo taxas mais baratas para transcrições de áudio, com alguns recursos diferentes incluídos.
Artigo relacionado
A primeira série dramática com AIGC da Yaoke Media, “O Mistério do Bronze em Qinling”, estreia hoje com protagonistas criados por IA
Hoje marca o lançamento oficial da minissérie de mistério e fantasia com IA da Yaoke Media, “A História Secreta do Bronze de Qinling”. Estrelada pelos dois primeiros atores de IA contratados pela empr
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
Recomendações de tópicos especiais relacionados
Comentários (29)
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀
ElevenLabs, uma startup de IA que recentemente garantiu impressionantes $180 milhões em financiamento, é famosa por suas habilidades de geração de áudio. Mas agora, eles deram um passo ousado em novo território ao lançar seu primeiro modelo independente de fala para texto, chamado Scribe.
Avaliada em $3,3 bilhões, a ElevenLabs tem sido a escolha de muitas empresas que precisam de serviços de texto para fala, graças à sua vasta coleção de vozes. Agora, eles estão mirando na detecção de fala, com o objetivo de enfrentar grandes nomes como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.
O Scribe não está brincando — ele suporta mais de 99 idiomas logo de cara. A ElevenLabs diz que ele tem excelente precisão para mais de 25 idiomas, com uma taxa de erro de palavras inferior a 5%. Estamos falando de inglês (com uma precisão declarada de 97%), francês, alemão, hindi, indonésio, japonês, canará, malaiala, polonês, português, espanhol e vietnamita, entre outros. Os demais se enquadram em diferentes categorias de precisão: alta (taxa de erro de palavras de 5% a 10%), boa (taxa de erro de palavras de 10% a 20%) e moderada (25% a 50%).
A empresa afirma que o Scribe supera o Google Gemini 2.0 Flash e o Whisper Large V3 em vários idiomas, de acordo com os testes de benchmark FLEURS & Common Voice.

A ElevenLabs na verdade construiu a parte de fala para texto para sua plataforma de agente conversacional de IA no último ano, mas o Scribe é sua primeira tentativa em um modelo independente de detecção de fala. Em uma conversa com a TechCrunch no último mês, o CEO Mati Staniszewski revelou os planos de fortalecer sua tecnologia de detecção de fala.
"Queremos melhorar na compreensão do que você está dizendo em uma conversa. Não se trata mais apenas de gerar conteúdo; estamos avançando para entender e transcrever a fala," disse Staniszewski. "Muitas pessoas pensam que fala para texto é algo ultrapassado, mas para muitos idiomas, ainda é bastante complicado. Achamos que podemos fazer melhor porque temos equipes internas para rotular dados e nos dar feedback rápido."
O Scribe também tem alguns recursos legais, como diarização inteligente de falantes para identificar quem está falando, carimbos de tempo no nível da palavra para legendas precisas e marcação automática de eventos sonoros, como risadas do público. Além disso, a ElevenLabs está permitindo que os clientes transcrevam diretamente conteúdo de vídeo para adicionar legendas ou captions em seu estúdio.
Por enquanto, o Scribe funciona apenas com áudio pré-gravado. Mas não se preocupe, a empresa diz que está trabalhando em uma versão em tempo real de baixa latência em breve. Portanto, ainda não está pronto para transcrições de reuniões ou anotações por voz.
A ElevenLabs está cobrando $0,40 por hora de áudio transcrito para o Scribe. É um preço competitivo, mas alguns concorrentes estão oferecendo taxas mais baratas para transcrições de áudio, com alguns recursos diferentes incluídos.
A primeira série dramática com AIGC da Yaoke Media, “O Mistério do Bronze em Qinling”, estreia hoje com protagonistas criados por IA
Hoje marca o lançamento oficial da minissérie de mistério e fantasia com IA da Yaoke Media, “A História Secreta do Bronze de Qinling”. Estrelada pelos dois primeiros atores de IA contratados pela empr
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
O WordPress.com agora permite que agentes de IA escrevam e publiquem posts, entre outras coisas
O WordPress.com, a popular plataforma de hospedagem e publicação na web, está agora adotando agentes de IA — uma iniciativa que pode transformar a aparência e a experiência da web. A empresa anunciou
스타트업이 이렇게 빠르게 성장하는 걸 보면 놀랍네요 ㅎㅎ 음성 분야는 경쟁이 심한데, ElevenLabs가 STT 시장에서도 성공할 수 있을까요? 투자금 1억 8천만 달러로 뭔가 특별한 기술을 만들겠죠? 🤔
A ElevenLabs não para de inovar! Esse novo modelo de speech-to-text parece promissor, mas fico pensando... será que vai conseguir competir com gigantes como Google e OpenAI no mercado de transcrição? 🤔 Espero que ofereça algo único pra justificar o hype!
Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎
Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!
¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀





Lar






