Lar
A ElevenLabs estabelece um novo padrão de referência em conversão de voz em texto; o Google Gemini segue com amplas capacidades
A Artificial Analysis lançou a versão mais recente de seu benchmark de conversão de fala em texto, o AA-WER v2.0. Os resultados destacam a ElevenLabs e o Google como líderes incontestáveis no desempenho de transcrição de áudio.

Quando avaliado pela taxa de erro de palavras (WER), o Scribe v2 da ElevenLabs alcançou o primeiro lugar com uma taxa de erro impressionantemente baixa de 2,3%. Logo atrás ficou o Gemini3Pro do Google, com 2,9%. Vale ressaltar que o Google não ajustou o Gemini especificamente para transcrição; esse resultado decorre exclusivamente de suas robustas capacidades multimodais gerais.
Outros modelos líderes apresentaram os seguintes resultados:
Mistral Voxtral Small: ficou em terceiro lugar com uma taxa de erro de 3,0%.
Google Gemini3Flash: apresentou um desempenho sólido com uma taxa de erro de 3,1%.
OpenAI Whisper Large v3: O modelo de código aberto mais utilizado ficou no meio do pelotão, com uma taxa de erro de 4,2%.
Os de pior desempenho: o Qwen3ASR Flash da Alibaba (5,9%), o Nova2Omni da Amazon (6,0%) e o Rev AI (6,1%) ficaram na parte inferior do ranking.

No benchmark AA-AgentTalk dedicado a comandos de assistentes de voz, o quadro de líderes permaneceu consistente. O Scribe v2 da ElevenLabs e o Gemini3Pro do Google mantiveram a liderança com taxas de erro de 1,6% e 1,7%, respectivamente, demonstrando-se altamente confiáveis para interações de voz curtas e diretas.
Artigo relacionado
A Notion transforma seu espaço de trabalho em um centro para agentes de IA
A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor
Você poderia me passar o título do artigo para que eu possa reescrevê-lo?
Antigamente, tirar uma foto profissional significava contratar um fotógrafo, alugar um estúdio e reservar pelo menos uma hora do seu dia. Hoje, um número crescente de plataformas baseadas em IA promet
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es
Recomendações de tópicos especiais relacionados
Comentários (1)
A Artificial Analysis lançou a versão mais recente de seu benchmark de conversão de fala em texto, o AA-WER v2.0. Os resultados destacam a ElevenLabs e o Google como líderes incontestáveis no desempenho de transcrição de áudio.

Quando avaliado pela taxa de erro de palavras (WER), o Scribe v2 da ElevenLabs alcançou o primeiro lugar com uma taxa de erro impressionantemente baixa de 2,3%. Logo atrás ficou o Gemini3Pro do Google, com 2,9%. Vale ressaltar que o Google não ajustou o Gemini especificamente para transcrição; esse resultado decorre exclusivamente de suas robustas capacidades multimodais gerais.
Outros modelos líderes apresentaram os seguintes resultados:
Mistral Voxtral Small: ficou em terceiro lugar com uma taxa de erro de 3,0%.
Google Gemini3Flash: apresentou um desempenho sólido com uma taxa de erro de 3,1%.
OpenAI Whisper Large v3: O modelo de código aberto mais utilizado ficou no meio do pelotão, com uma taxa de erro de 4,2%.
Os de pior desempenho: o Qwen3ASR Flash da Alibaba (5,9%), o Nova2Omni da Amazon (6,0%) e o Rev AI (6,1%) ficaram na parte inferior do ranking.

No benchmark AA-AgentTalk dedicado a comandos de assistentes de voz, o quadro de líderes permaneceu consistente. O Scribe v2 da ElevenLabs e o Gemini3Pro do Google mantiveram a liderança com taxas de erro de 1,6% e 1,7%, respectivamente, demonstrando-se altamente confiáveis para interações de voz curtas e diretas.
A Notion transforma seu espaço de trabalho em um centro para agentes de IA
A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor
Você poderia me passar o título do artigo para que eu possa reescrevê-lo?
Antigamente, tirar uma foto profissional significava contratar um fotógrafo, alugar um estúdio e reservar pelo menos uma hora do seu dia. Hoje, um número crescente de plataformas baseadas em IA promet
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es











