Alternativa superior à ferramenta de transcrição de IA do OpenAI: menos alucinação, mais precisão

O Whisper da OpenAI, uma ferramenta de reconhecimento de fala e transcrição de IA lançada em 2022, foi encontrada para gerar frequentemente alucinações ou fabricar informações, levantando preocupações sobre seu potencial de causar danos em ambientes críticos. Um pesquisador da Universidade de Michigan descobriu alucinações em 80% das transcrições de áudio de reuniões públicas que ele revisou. Da mesma forma, um engenheiro que analisou 100 horas de transcrições de sussurros relatou alucinações em cerca de metade delas, e outro desenvolvedor as encontrou em quase todas as transcrições que ele criou, totalizando 26.000 instâncias. Embora pequenos erros na transcrição sejam comuns, os especialistas observaram que o nível de alucinação de Whisper é sem precedentes entre as ferramentas de transcrição da IA. O Openai afirma que o Whisper, uma rede neural de código aberto, alcança a precisão quase humana no reconhecimento de fala em inglês. É amplamente utilizado entre os setores para tarefas como transcrever entrevistas, traduzir conteúdo e gerar legendas de vídeo. O uso generalizado de sussurros pode levar à propagação de texto fabricado, citações incorretas e outras informações erradas em várias plataformas, com o impacto variando com base na natureza do conteúdo original. O Whisper é integrado a algumas versões do ChatGPT, usado em call centers, assistentes de voz e plataformas em nuvem da Oracle e Microsoft, e foi baixado mais de 4,2 milhões de vezes no mês passado pelo HuggingFace. De particular preocupação é o crescente uso de ferramentas baseadas em sussurros por profissionais médicos para transcrever consultas dos pacientes. A AP falou com mais de uma dúzia de engenheiros, pesquisadores e desenvolvedores que confirmaram que o sussurro geralmente fabrica frases e frases inteiras, às vezes incluindo comentários raciais, retórica violenta e até tratamentos médicos imaginados. "Ninguém quer um erro de diagnóstico", enfatizou Alondra Nelson, professor do Instituto de Estudo Avançado. Embora o OpenAi aconselhe o uso de sussurros em domínios de alto risco, como contextos de tomada de decisão, onde as falhas de precisão podem levar a problemas significativos, a precisão comercializada da ferramenta torna atraente para vários setores que procuram otimizar operações, geralmente ignorando os riscos potenciais. O problema não se limita a áudio longo ou mal registrado; Os pesquisadores encontraram alucinações mesmo em amostras de áudio claras e claras. Eles estimam que isso pode resultar em dezenas de milhares de transcrições incorretas em milhões de gravações. Christian Vogler, diretor do Programa de Acesso à Tecnologia da Universidade de Gallaudet e o próprio surdo, apontou que indivíduos surdos ou com deficiência auditiva podem perder essas alucinações "escondidas entre todo esse outro texto". Essas descobertas destacam uma questão mais ampla no setor de IA: a pressa de comercializar produtos para fins lucrativos, especialmente na ausência de regulamentos abrangentes de IA nos EUA. Isso é particularmente relevante em meio a debates sobre o status de fins lucrativos vs. sem fins lucrativos da OpenAI e as recentes declarações de liderança que minimizam os riscos da IA. Um porta -voz do Openai disse à AP que a empresa está trabalhando continuamente para reduzir alucinações e valorizar as descobertas dos pesquisadores, incorporando feedback nas atualizações do modelo. Enquanto isso, sugerimos considerar o Otter.ai, uma ferramenta de transcrição de IA confiável, confiável pelos jornalistas, que recentemente adicionou suporte a seis novos idiomas. Enquanto um usuário de longa data relatou uma estatística alucinada em um novo recurso de resumo da IA, o erro não apareceu na própria transcrição. O Otter.ai aconselha os usuários a revisar e editar transcrições para precisão, especialmente para tarefas críticas, observando que a precisão pode variar devido a fatores como ruído de fundo, sotaques e complexidade de conversas. Para os usuários do iPhone, o iOS 18.1 com a Apple Intelligence agora oferece gravação e transcrição de chamadas movidas a IA, embora o editor-chefe da ZDNET, Jason Hiner, descreva-o como "ainda um trabalho em andamento". A OpenAI anunciou recentemente planos para fornecer mais ferramentas aos seus 250 milhões de usuários ChatGPT Plus.
Artigo relacionado
Quadrinhos de IA: Explorando a Vanguarda da Criação
A indústria de quadrinhos está passando por uma mudança sísmica, graças à integração da inteligência artificial. Longe vão os dias em que a IA era apenas um sonho distante; agora é uma ferramenta prát
Viggle AI: Revolucionando VFX de Vídeo com Mistura de Movimento por IA
Revolucionando Efeitos de Vídeo com Viggle AIViggle AI está transformando o mundo dos efeitos de vídeo, tornando criações visuais de ponta mais acessíveis do que nunca. Acabaram-se os dias de configur
Impressão Sob Demanda com Arte de IA: Um Guia Passo a Passo para Etsy
Pensando em entrar no mundo do e-commerce, mas com receio de gerenciar estoque ou criar produtos próprios? A impressão sob demanda (POD) combinada com geração de arte por IA pode ser sua solução para
Comentários (15)
0/200
RonaldLee
15 de Abril de 2025 à0 00:00:00 GMT
This tool is a lifesaver for anyone tired of Whisper's hallucinations! It's way more accurate and reliable. I used it for a critical meeting transcription and it nailed every detail. Only wish it was a bit faster, but accuracy over speed any day!
0
StevenNelson
15 de Abril de 2025 à0 00:00:00 GMT
このツールはWhisperの幻覚に悩まされている人には救世主です!精度が高く信頼性もあります。重要な会議の文字起こしに使ってみましたが、細部まで完璧でした。もう少し速ければ最高なのに、と思いますが、精度が最優先ですね!
0
StevenGonzalez
15 de Abril de 2025 à0 00:00:00 GMT
위스퍼의 환각에 지친 사람들에게 이 도구는 구세주입니다! 훨씬 정확하고 신뢰할 수 있어요. 중요한 회의 녹취에 사용해봤는데, 모든 세부 사항을 완벽하게 잡아냈어요. 조금 더 빨랐으면 좋겠지만, 정확성이 우선이죠!
0
AlbertThomas
15 de Abril de 2025 à0 00:00:00 GMT
Esta ferramenta é uma salvação para quem está cansado das alucinações do Whisper! É muito mais precisa e confiável. Usei para transcrever uma reunião importante e pegou todos os detalhes. Só queria que fosse um pouco mais rápida, mas precisão acima de tudo!
0
CharlesJohnson
15 de Abril de 2025 à0 00:00:00 GMT
Esta herramienta es un salvavidas para quienes están hartos de las alucinaciones de Whisper. Es mucho más precisa y confiable. La usé para transcribir una reunión importante y capturó todos los detalles. Ojalá fuera un poco más rápida, pero la precisión es lo primero.
0
JuanCarter
14 de Abril de 2025 à0 00:00:00 GMT
This alternative to OpenAI's Whisper is a lifesaver! Less hallucinations and more accuracy? Sign me up! It's perfect for my work, but the interface could use a bit of a facelift. 😅
0




This tool is a lifesaver for anyone tired of Whisper's hallucinations! It's way more accurate and reliable. I used it for a critical meeting transcription and it nailed every detail. Only wish it was a bit faster, but accuracy over speed any day!




このツールはWhisperの幻覚に悩まされている人には救世主です!精度が高く信頼性もあります。重要な会議の文字起こしに使ってみましたが、細部まで完璧でした。もう少し速ければ最高なのに、と思いますが、精度が最優先ですね!




위스퍼의 환각에 지친 사람들에게 이 도구는 구세주입니다! 훨씬 정확하고 신뢰할 수 있어요. 중요한 회의 녹취에 사용해봤는데, 모든 세부 사항을 완벽하게 잡아냈어요. 조금 더 빨랐으면 좋겠지만, 정확성이 우선이죠!




Esta ferramenta é uma salvação para quem está cansado das alucinações do Whisper! É muito mais precisa e confiável. Usei para transcrever uma reunião importante e pegou todos os detalhes. Só queria que fosse um pouco mais rápida, mas precisão acima de tudo!




Esta herramienta es un salvavidas para quienes están hartos de las alucinaciones de Whisper. Es mucho más precisa y confiable. La usé para transcribir una reunión importante y capturó todos los detalles. Ojalá fuera un poco más rápida, pero la precisión es lo primero.




This alternative to OpenAI's Whisper is a lifesaver! Less hallucinations and more accuracy? Sign me up! It's perfect for my work, but the interface could use a bit of a facelift. 😅












