Alternativa superior a la herramienta de transcripción de IA de OpenAI: menos alucinación, más precisión

El Whisper de OpenAI, una herramienta de reconocimiento y transcripción de voz impulsada por IA lanzada en 2022, genera frecuentemente alucinaciones o información fabricada, lo que plantea preocupaciones sobre su potencial para causar daño en entornos críticos.
Un investigador de la Universidad de Michigan descubrió alucinaciones en el 80% de las transcripciones de audio de reuniones públicas que revisó. De manera similar, un ingeniero que analizó 100 horas de transcripciones de Whisper reportó alucinaciones en aproximadamente la mitad, y otro desarrollador las encontró en casi todas las transcripciones que creó, totalizando 26,000 casos.
Aunque los errores menores en la transcripción son comunes, los expertos señalaron que el nivel de alucinación de Whisper es sin precedentes entre las herramientas de transcripción de IA. OpenAI afirma que Whisper, una red neuronal de código abierto, logra una precisión casi humana en el reconocimiento de voz en inglés. Es ampliamente utilizado en industrias para tareas como transcribir entrevistas, traducir contenido y generar subtítulos de video.
El uso generalizado de Whisper podría llevar a la propagación de texto fabricado, citas mal atribuidas y otra desinformación en diversas plataformas, con un impacto que varía según la naturaleza del contenido original. Whisper está integrado en algunas versiones de ChatGPT, usado en centros de llamadas, asistentes de voz y plataformas en la nube de Oracle y Microsoft, y fue descargado más de 4.2 millones de veces el último mes desde HuggingFace.
De particular preocupación es el creciente uso de herramientas basadas en Whisper por parte de profesionales médicos para transcribir consultas de pacientes. La AP habló con más de una docena de ingenieros, investigadores y desarrolladores que confirmaron que Whisper a menudo fabrica frases y oraciones completas, a veces incluyendo comentarios raciales, retórica violenta e incluso tratamientos médicos imaginados.
"Nadie quiere un diagnóstico erróneo," enfatizó Alondra Nelson, profesora del Instituto de Estudios Avanzados.
Aunque OpenAI desaconseja usar Whisper en dominios de alto riesgo como contextos de toma de decisiones donde los errores de precisión pueden generar problemas significativos, la precisión promocionada de la herramienta la hace atractiva para diversas industrias que buscan optimizar operaciones, a menudo pasando por alto los riesgos potenciales.
El problema no se limita a audios largos o mal grabados; los investigadores encontraron alucinaciones incluso en muestras de audio cortas y claras. Estiman que esto podría resultar en decenas de miles de transcripciones incorrectas en millones de grabaciones. Christian Vogler, director del Programa de Acceso Tecnológico de la Universidad de Gallaudet y sordo él mismo, señaló que las personas sordas o con dificultades auditivas podrían no detectar estas alucinaciones "ocultas entre todo este texto."
Estos hallazgos destacan un problema más amplio en la industria de la IA: la carrera por lanzar productos al mercado con fines de lucro, especialmente en ausencia de regulaciones integrales de IA en EE. UU. Esto es particularmente relevante en medio de debates sobre el estatus de OpenAI como empresa con o sin fines de lucro y recientes declaraciones de liderazgo que minimizan los riesgos de la IA.
Un portavoz de OpenAI dijo a la AP que la empresa está trabajando continuamente para reducir las alucinaciones y valora los hallazgos de los investigadores, incorporando retroalimentación en las actualizaciones del modelo.
Mientras tanto, sugerimos considerar Otter.ai, una herramienta de transcripción de IA confiable utilizada por periodistas, que recientemente añadió soporte para seis nuevos idiomas. Aunque un usuario de larga data reportó una estadística alucinada en una nueva función de resumen de IA, el error no apareció en la transcripción misma. Otter.ai aconseja a los usuarios revisar y editar las transcripciones para garantizar la precisión, especialmente para tareas críticas, señalando que la exactitud puede variar debido a factores como el ruido de fondo, acentos y la complejidad de la conversación.
Para usuarios de iPhone, iOS 18.1 con Apple Intelligence ahora ofrece grabación y transcripción de llamadas impulsadas por IA, aunque el editor en jefe de ZDNET, Jason Hiner, lo describe como "todavía un trabajo en progreso."
OpenAI anunció recientemente planes para proporcionar más herramientas a sus 250 millones de usuarios de ChatGPT Plus.
Artículo relacionado
Explorando la Devoción Divina: Fe, Amor y Libertad Espiritual
En un mundo lleno de caos y distracciones, encontrar momentos de paz para la conexión espiritual puede transformar vidas. Este artículo profundiza en el acto profundo de venerar a Jesús, explorando te
Gestión de SQL impulsada por IA: Optimización de bases de datos en 2025
La inteligencia artificial está transformando la gestión de bases de datos con SQL, introduciendo herramientas innovadoras que mejoran la automatización y la eficiencia. Al comprender los contextos de
De Dot-Com a IA: Lecciones para Evitar Errores Tecnológicos del Pasado
Durante el auge de las puntocom, añadir “.com” al nombre de una empresa podía disparar el precio de sus acciones, incluso sin clientes, ingresos o un modelo de negocio viable. Hoy, la misma fiebre rod
comentario (17)
0/200
PaulLewis
5 de agosto de 2025 19:01:00 GMT+02:00
This transcription tool sounds promising! Less hallucination is a big win for accuracy. Excited to see how it stacks up in real-world use. 😊
0
FrankSanchez
4 de agosto de 2025 08:48:52 GMT+02:00
This new AI transcription tool sounds like a game-changer! Whisper’s hallucinations were such a mess for serious work, so I’m hyped to see something more accurate. Can it handle noisy audio though? 🤔
0
WalterWhite
16 de abril de 2025 05:50:21 GMT+02:00
このツールは本当に助かる!AIが勝手に作り出す幻覚がなく、非常に正確です。もう少し早く動いてくれると嬉しいけど、正確さが最優先だからね!😊
0
HaroldLopez
15 de abril de 2025 20:21:19 GMT+02:00
이 도구는 정말 구세주예요! AI가 내 녹취록에 허구를 만들어내는 걱정은 이제 안 해요. 정말 정확하고, 짜증나는 환각도 줄어들었어요. 조금만 더 빨라지면 좋겠지만, 정확성이 더 중요하죠! 😊
0
JimmyGarcia
15 de abril de 2025 20:19:21 GMT+02:00
Essa ferramenta é um salva-vidas! Não preciso mais me preocupar com a IA inventando coisas nas minhas transcrições. É super precisa e realmente reduz aquelas alucinações irritantes. Só gostaria que fosse um pouco mais rápida, mas, né, precisão acima de velocidade qualquer dia! 😊
0
RogerJackson
15 de abril de 2025 16:28:05 GMT+02:00
OpenAI의 Whisper 대체 도구는 정말 구세주네요! 환각이 적고 정확도가 높다니, 가입해야죠! 일에는 완벽하지만 인터페이스가 좀 더 세련되면 좋겠어요. 😅
0
El Whisper de OpenAI, una herramienta de reconocimiento y transcripción de voz impulsada por IA lanzada en 2022, genera frecuentemente alucinaciones o información fabricada, lo que plantea preocupaciones sobre su potencial para causar daño en entornos críticos.
Un investigador de la Universidad de Michigan descubrió alucinaciones en el 80% de las transcripciones de audio de reuniones públicas que revisó. De manera similar, un ingeniero que analizó 100 horas de transcripciones de Whisper reportó alucinaciones en aproximadamente la mitad, y otro desarrollador las encontró en casi todas las transcripciones que creó, totalizando 26,000 casos.
Aunque los errores menores en la transcripción son comunes, los expertos señalaron que el nivel de alucinación de Whisper es sin precedentes entre las herramientas de transcripción de IA. OpenAI afirma que Whisper, una red neuronal de código abierto, logra una precisión casi humana en el reconocimiento de voz en inglés. Es ampliamente utilizado en industrias para tareas como transcribir entrevistas, traducir contenido y generar subtítulos de video.
El uso generalizado de Whisper podría llevar a la propagación de texto fabricado, citas mal atribuidas y otra desinformación en diversas plataformas, con un impacto que varía según la naturaleza del contenido original. Whisper está integrado en algunas versiones de ChatGPT, usado en centros de llamadas, asistentes de voz y plataformas en la nube de Oracle y Microsoft, y fue descargado más de 4.2 millones de veces el último mes desde HuggingFace.
De particular preocupación es el creciente uso de herramientas basadas en Whisper por parte de profesionales médicos para transcribir consultas de pacientes. La AP habló con más de una docena de ingenieros, investigadores y desarrolladores que confirmaron que Whisper a menudo fabrica frases y oraciones completas, a veces incluyendo comentarios raciales, retórica violenta e incluso tratamientos médicos imaginados.
"Nadie quiere un diagnóstico erróneo," enfatizó Alondra Nelson, profesora del Instituto de Estudios Avanzados.
Aunque OpenAI desaconseja usar Whisper en dominios de alto riesgo como contextos de toma de decisiones donde los errores de precisión pueden generar problemas significativos, la precisión promocionada de la herramienta la hace atractiva para diversas industrias que buscan optimizar operaciones, a menudo pasando por alto los riesgos potenciales.
El problema no se limita a audios largos o mal grabados; los investigadores encontraron alucinaciones incluso en muestras de audio cortas y claras. Estiman que esto podría resultar en decenas de miles de transcripciones incorrectas en millones de grabaciones. Christian Vogler, director del Programa de Acceso Tecnológico de la Universidad de Gallaudet y sordo él mismo, señaló que las personas sordas o con dificultades auditivas podrían no detectar estas alucinaciones "ocultas entre todo este texto."
Estos hallazgos destacan un problema más amplio en la industria de la IA: la carrera por lanzar productos al mercado con fines de lucro, especialmente en ausencia de regulaciones integrales de IA en EE. UU. Esto es particularmente relevante en medio de debates sobre el estatus de OpenAI como empresa con o sin fines de lucro y recientes declaraciones de liderazgo que minimizan los riesgos de la IA.
Un portavoz de OpenAI dijo a la AP que la empresa está trabajando continuamente para reducir las alucinaciones y valora los hallazgos de los investigadores, incorporando retroalimentación en las actualizaciones del modelo.
Mientras tanto, sugerimos considerar Otter.ai, una herramienta de transcripción de IA confiable utilizada por periodistas, que recientemente añadió soporte para seis nuevos idiomas. Aunque un usuario de larga data reportó una estadística alucinada en una nueva función de resumen de IA, el error no apareció en la transcripción misma. Otter.ai aconseja a los usuarios revisar y editar las transcripciones para garantizar la precisión, especialmente para tareas críticas, señalando que la exactitud puede variar debido a factores como el ruido de fondo, acentos y la complejidad de la conversación.
Para usuarios de iPhone, iOS 18.1 con Apple Intelligence ahora ofrece grabación y transcripción de llamadas impulsadas por IA, aunque el editor en jefe de ZDNET, Jason Hiner, lo describe como "todavía un trabajo en progreso."
OpenAI anunció recientemente planes para proporcionar más herramientas a sus 250 millones de usuarios de ChatGPT Plus.




This transcription tool sounds promising! Less hallucination is a big win for accuracy. Excited to see how it stacks up in real-world use. 😊




This new AI transcription tool sounds like a game-changer! Whisper’s hallucinations were such a mess for serious work, so I’m hyped to see something more accurate. Can it handle noisy audio though? 🤔




このツールは本当に助かる!AIが勝手に作り出す幻覚がなく、非常に正確です。もう少し早く動いてくれると嬉しいけど、正確さが最優先だからね!😊




이 도구는 정말 구세주예요! AI가 내 녹취록에 허구를 만들어내는 걱정은 이제 안 해요. 정말 정확하고, 짜증나는 환각도 줄어들었어요. 조금만 더 빨라지면 좋겠지만, 정확성이 더 중요하죠! 😊




Essa ferramenta é um salva-vidas! Não preciso mais me preocupar com a IA inventando coisas nas minhas transcrições. É super precisa e realmente reduz aquelas alucinações irritantes. Só gostaria que fosse um pouco mais rápida, mas, né, precisão acima de velocidade qualquer dia! 😊




OpenAI의 Whisper 대체 도구는 정말 구세주네요! 환각이 적고 정확도가 높다니, 가입해야죠! 일에는 완벽하지만 인터페이스가 좀 더 세련되면 좋겠어요. 😅












