Alternativa superior a la herramienta de transcripción de IA de OpenAI: menos alucinación, más precisión

Se ha descubierto que OpenAI's Whisper, una herramienta de reconocimiento de voz y transcripción de voz con IA, lanzada en 2022, genera frecuentemente alucinaciones o fabrica información, lo que genera preocupaciones sobre su potencial para causar daño en entornos críticos. Un investigador de la Universidad de Michigan descubrió alucinaciones en el 80% de las transcripciones de audio de las reuniones públicas que revisó. Del mismo modo, un ingeniero que analizó 100 horas de transcripciones de susurro informó alucinaciones en aproximadamente la mitad de ellas, y otro desarrollador los encontró en casi todas las transcripciones que creó, con un total de 26,000 instancias. Si bien los errores menores en la transcripción son comunes, los expertos señalaron que el nivel de alucinación de Whisper no tiene precedentes entre las herramientas de transcripción de IA. Operai afirma que Whisper, una red neuronal de código abierto, logra una precisión casi humana en el reconocimiento de voz en inglés. Se usa ampliamente en todas las industrias para tareas como transcribir entrevistas, traducir contenido y generar subtítulos de video. El uso generalizado de Whisper podría conducir a la propagación del texto fabricado, las citas mal atribuidas y otra información errónea en varias plataformas, con el impacto que varía en función de la naturaleza del contenido original. Whisper está integrado en algunas versiones de ChatGPT, utilizadas en centros de llamadas, asistentes de voz y plataformas en la nube de Oracle y Microsoft, y se descargó más de 4.2 millones de veces el mes pasado desde Huggingface. De particular preocupación es el uso creciente de herramientas basadas en susurros de profesionales médicos para transcribir consultas de pacientes. La AP habló con más de una docena de ingenieros, investigadores y desarrolladores que confirmaron que Whisper a menudo fabrica frases y oraciones enteras, a veces que incluyen comentarios raciales, retórica violenta e incluso tratamientos médicos imaginados. "Nadie quiere un diagnóstico erróneo", enfatizó Alondra Nelson, profesor del Instituto de Estudios Avanzados. Aunque Openai aconseja el uso de Whisper en dominios de alto riesgo como contextos de toma de decisiones donde los defectos de precisión pueden conducir a problemas significativos, la precisión comercializada de la herramienta lo hace atractivo para varias industrias que buscan optimizar las operaciones, a menudo vistas a los riesgos potenciales. El problema no se limita a audio largo o mal grabado; Los investigadores encontraron alucinaciones incluso en muestras de audio claras y claras. Estiman que esto podría dar lugar a decenas de miles de transcripciones incorrectas en millones de grabaciones. Christian Vogler, director del programa de acceso a tecnología de la Universidad de Gallaudet y el propio Deaf, señaló que las personas sordas o con problemas de audición pueden perder estas alucinaciones "ocultas entre todo este otro texto". Estos hallazgos destacan un problema más amplio en la industria de la IA: la prisa por el mercado de los productos para obtener ganancias, especialmente en ausencia de regulaciones integrales de IA en los Estados Unidos. Esto es particularmente relevante en medio de debates sobre el estado con fines de lucro versus sin fines de lucro de OpenAI y declaraciones de liderazgo recientes que minimizan los riesgos de IA. Un portavoz de OpenAI le dijo a la AP que la compañía está trabajando continuamente para reducir las alucinaciones y valora los hallazgos de los investigadores, incorporando comentarios en las actualizaciones del modelo. Mientras tanto, sugerimos considerar a Otter.ai, una herramienta confiable de transcripción de IA confiable por los periodistas, que recientemente agregó apoyo para seis nuevos idiomas. Mientras que un usuario desde hace mucho tiempo informó una estadística alucinada en una nueva característica de resumen de IA, el error no apareció en la transcripción misma. Otter.ai aconseja a los usuarios que revisen y editen transcripciones para su precisión, especialmente para tareas críticas, señalando que la precisión puede variar debido a factores como el ruido de fondo, los acentos y la complejidad de la conversación. Para los usuarios de iPhone, iOS 18.1 con Apple Intelligence ahora ofrece grabación y transcripción de llamadas a IA, aunque el editor en jefe de ZDNET Jason Hiner lo describe como "sigue siendo un trabajo en progreso". Operai anunció recientemente planes para proporcionar más herramientas a sus 250 millones de usuarios ChatGPT más.
Artículo relacionado
Cómics de IA: Explorando la vanguardia de la creación
La industria del cómic está experimentando un cambio sísmico gracias a la integración de la inteligencia artificial. Atrás quedaron los días en que la IA era solo un sueño lejano; ahora es una herrami
Viggle AI: Revolucionando los Efectos Visuales de Video con Mezcla de Movimiento AI
Revolucionando los Efectos de Video con Viggle AIViggle AI está transformando el mundo de los efectos de video, haciendo que las creaciones visuales de vanguardia sean más accesibles que nunca. Atrás
Impresión bajo demanda con arte de IA: Guía paso a paso para Etsy
¿Pensando en adentrarte en el comercio electrónico pero temes gestionar inventario o crear tus propios productos? La impresión bajo demanda (POD) junto con la generación de arte por IA podría ser tu s
comentario (15)
0/200
RonaldLee
15 de abril de 2025 00:00:00 GMT
This tool is a lifesaver for anyone tired of Whisper's hallucinations! It's way more accurate and reliable. I used it for a critical meeting transcription and it nailed every detail. Only wish it was a bit faster, but accuracy over speed any day!
0
StevenNelson
15 de abril de 2025 00:00:00 GMT
このツールはWhisperの幻覚に悩まされている人には救世主です!精度が高く信頼性もあります。重要な会議の文字起こしに使ってみましたが、細部まで完璧でした。もう少し速ければ最高なのに、と思いますが、精度が最優先ですね!
0
StevenGonzalez
15 de abril de 2025 00:00:00 GMT
위스퍼의 환각에 지친 사람들에게 이 도구는 구세주입니다! 훨씬 정확하고 신뢰할 수 있어요. 중요한 회의 녹취에 사용해봤는데, 모든 세부 사항을 완벽하게 잡아냈어요. 조금 더 빨랐으면 좋겠지만, 정확성이 우선이죠!
0
AlbertThomas
15 de abril de 2025 00:00:00 GMT
Esta ferramenta é uma salvação para quem está cansado das alucinações do Whisper! É muito mais precisa e confiável. Usei para transcrever uma reunião importante e pegou todos os detalhes. Só queria que fosse um pouco mais rápida, mas precisão acima de tudo!
0
CharlesJohnson
15 de abril de 2025 00:00:00 GMT
Esta herramienta es un salvavidas para quienes están hartos de las alucinaciones de Whisper. Es mucho más precisa y confiable. La usé para transcribir una reunión importante y capturó todos los detalles. Ojalá fuera un poco más rápida, pero la precisión es lo primero.
0
JuanCarter
14 de abril de 2025 00:00:00 GMT
This alternative to OpenAI's Whisper is a lifesaver! Less hallucinations and more accuracy? Sign me up! It's perfect for my work, but the interface could use a bit of a facelift. 😅
0




This tool is a lifesaver for anyone tired of Whisper's hallucinations! It's way more accurate and reliable. I used it for a critical meeting transcription and it nailed every detail. Only wish it was a bit faster, but accuracy over speed any day!




このツールはWhisperの幻覚に悩まされている人には救世主です!精度が高く信頼性もあります。重要な会議の文字起こしに使ってみましたが、細部まで完璧でした。もう少し速ければ最高なのに、と思いますが、精度が最優先ですね!




위스퍼의 환각에 지친 사람들에게 이 도구는 구세주입니다! 훨씬 정확하고 신뢰할 수 있어요. 중요한 회의 녹취에 사용해봤는데, 모든 세부 사항을 완벽하게 잡아냈어요. 조금 더 빨랐으면 좋겠지만, 정확성이 우선이죠!




Esta ferramenta é uma salvação para quem está cansado das alucinações do Whisper! É muito mais precisa e confiável. Usei para transcrever uma reunião importante e pegou todos os detalhes. Só queria que fosse um pouco mais rápida, mas precisão acima de tudo!




Esta herramienta es un salvavidas para quienes están hartos de las alucinaciones de Whisper. Es mucho más precisa y confiable. La usé para transcribir una reunión importante y capturó todos los detalles. Ojalá fuera un poco más rápida, pero la precisión es lo primero.




This alternative to OpenAI's Whisper is a lifesaver! Less hallucinations and more accuracy? Sign me up! It's perfect for my work, but the interface could use a bit of a facelift. 😅












