opção
Lar
Notícias
Elevenlabs revela um novo modelo de fala para texto

Elevenlabs revela um novo modelo de fala para texto

10 de Abril de 2025
114

ElevenLabs, uma startup de IA que recentemente garantiu impressionantes $180 milhões em financiamento, é famosa por suas habilidades de geração de áudio. Mas agora, eles deram um passo ousado em novo território ao lançar seu primeiro modelo independente de fala para texto, chamado Scribe.

Avaliada em $3,3 bilhões, a ElevenLabs tem sido a escolha de muitas empresas que precisam de serviços de texto para fala, graças à sua vasta coleção de vozes. Agora, eles estão mirando na detecção de fala, com o objetivo de enfrentar grandes nomes como Gladia, Speechmatics, AssemblyAI, Deepgram e os modelos Whisper da OpenAI.

O Scribe não está brincando — ele suporta mais de 99 idiomas logo de cara. A ElevenLabs diz que ele tem excelente precisão para mais de 25 idiomas, com uma taxa de erro de palavras inferior a 5%. Estamos falando de inglês (com uma precisão declarada de 97%), francês, alemão, hindi, indonésio, japonês, canará, malaiala, polonês, português, espanhol e vietnamita, entre outros. Os demais se enquadram em diferentes categorias de precisão: alta (taxa de erro de palavras de 5% a 10%), boa (taxa de erro de palavras de 10% a 20%) e moderada (25% a 50%).

A empresa afirma que o Scribe supera o Google Gemini 2.0 Flash e o Whisper Large V3 em vários idiomas, de acordo com os testes de benchmark FLEURS & Common Voice.

Créditos da Imagem: ElevenLabs

A ElevenLabs na verdade construiu a parte de fala para texto para sua plataforma de agente conversacional de IA no último ano, mas o Scribe é sua primeira tentativa em um modelo independente de detecção de fala. Em uma conversa com a TechCrunch no último mês, o CEO Mati Staniszewski revelou os planos de fortalecer sua tecnologia de detecção de fala.

"Queremos melhorar na compreensão do que você está dizendo em uma conversa. Não se trata mais apenas de gerar conteúdo; estamos avançando para entender e transcrever a fala," disse Staniszewski. "Muitas pessoas pensam que fala para texto é algo ultrapassado, mas para muitos idiomas, ainda é bastante complicado. Achamos que podemos fazer melhor porque temos equipes internas para rotular dados e nos dar feedback rápido."

O Scribe também tem alguns recursos legais, como diarização inteligente de falantes para identificar quem está falando, carimbos de tempo no nível da palavra para legendas precisas e marcação automática de eventos sonoros, como risadas do público. Além disso, a ElevenLabs está permitindo que os clientes transcrevam diretamente conteúdo de vídeo para adicionar legendas ou captions em seu estúdio.

Por enquanto, o Scribe funciona apenas com áudio pré-gravado. Mas não se preocupe, a empresa diz que está trabalhando em uma versão em tempo real de baixa latência em breve. Portanto, ainda não está pronto para transcrições de reuniões ou anotações por voz.

A ElevenLabs está cobrando $0,40 por hora de áudio transcrito para o Scribe. É um preço competitivo, mas alguns concorrentes estão oferecendo taxas mais baratas para transcrições de áudio, com alguns recursos diferentes incluídos.

Artigo relacionado
Eleve Suas Imagens com o HitPaw AI Photo Enhancer: Um Guia Completo Eleve Suas Imagens com o HitPaw AI Photo Enhancer: Um Guia Completo Quer transformar sua experiência de edição de fotos? Graças à inteligência artificial de ponta, melhorar suas imagens agora é fácil. Este guia detalhado explora o HitPaw AI Photo Enhancer, uma ferrame
Criação Musical Alimentada por IA: Crie Músicas e Vídeos sem Esforço Criação Musical Alimentada por IA: Crie Músicas e Vídeos sem Esforço A criação musical pode ser complexa, exigindo tempo, recursos e expertise. A inteligência artificial transformou esse processo, tornando-o simples e acessível. Este guia destaca como a IA permite que
Criando Livros de Colorir Alimentados por IA: Um Guia Completo Criando Livros de Colorir Alimentados por IA: Um Guia Completo Projetar livros de colorir é uma busca recompensadora, combinando expressão artística com experiências calmantes para os usuários. No entanto, o processo pode ser trabalhoso. Felizmente, ferramentas d
Comentários (27)
0/200
TimothyMartínez
TimothyMartínez 21 de Agosto de 2025 à20 14:01:20 WEST

Scribe sounds like a game-changer! I'm curious if it'll handle my thick accent as well as it claims. Excited to try it for podcast transcriptions! 😎

MatthewTaylor
MatthewTaylor 12 de Agosto de 2025 à59 22:00:59 WEST

Just saw ElevenLabs' Scribe model news—97% accuracy in English is wild! 😮 I'm curious how it'll handle my thick accent in meetings. Hope they drop that real-time version soon!

RogerRoberts
RogerRoberts 21 de Abril de 2025 à55 02:44:55 WEST

¡El Scribe de ElevenLabs es genial! Es increíble cómo han entrado en el mercado de voz a texto con un modelo tan sólido. Mi única queja es que a veces tiene problemas con acentos fuertes. Pero, para ser el primer intento, es bastante impresionante. ¡Sigan así, ElevenLabs! 🚀

RalphHill
RalphHill 20 de Abril de 2025 à44 21:36:44 WEST

O novo modelo Scribe do ElevenLabs é incrível! Eles passaram da geração de áudio para o reconhecimento de fala de forma tão suave. Testei e a precisão é boa, mas tropeça um pouco com sotaques fortes. Vale a pena conferir se você gosta de IA! 😊

PaulBrown
PaulBrown 20 de Abril de 2025 à4 03:47:04 WEST

ElevenLabsのScribeはすごいね!音声からテキストへの変換がこんなにスムーズだなんて。ただ、少しだけ重いアクセントだと苦手なところがあるかな。でも、初挑戦にしてはかなり良いと思うよ!頑張ってね、ElevenLabs!🚀

HarryLewis
HarryLewis 20 de Abril de 2025 à49 02:23:49 WEST

ElevenLabs의 Scribe 정말 멋지네요! 음성에서 텍스트로 변환하는 게 이렇게 부드럽다니. 다만, 조금 무거운 억양은 어려워하는 것 같아요. 그래도 첫 시도치고는 꽤 훌륭해요! 계속 화이팅, ElevenLabs! 🚀

De volta ao topo
OR