opción
Hogar
Noticias
Nuevos Modelos de IA de OpenAI Exhiben Mayores Tasas de Alucinación en Tareas de Razonamiento

Nuevos Modelos de IA de OpenAI Exhiben Mayores Tasas de Alucinación en Tareas de Razonamiento

21 de julio de 2025
60

Nuevos Modelos de IA de OpenAI Exhiben Mayores Tasas de Alucinación en Tareas de Razonamiento

Los nuevos modelos de IA o3 y o4-mini de OpenAI destacan en múltiples áreas pero muestran una mayor tendencia a la alucinación en comparación con modelos anteriores, generando más información fabricada.

Las alucinaciones siguen siendo un desafío persistente en la IA, incluso para sistemas de primer nivel. Normalmente, los modelos más nuevos reducen las tasas de alucinación, pero o3 y o4-mini se desvían de esta tendencia.

Pruebas internas de OpenAI revelan que o3 y o4-mini, diseñados como modelos de razonamiento, alucinan con mayor frecuencia que modelos de razonamiento anteriores como o1, o1-mini y o3-mini, así como modelos no orientados al razonamiento como GPT-4o.

La causa de este aumento sigue sin estar clara para OpenAI, lo que genera preocupación.

El informe técnico de OpenAI sobre o3 y o4-mini señala que se necesita más investigación para determinar por qué las tasas de alucinación aumentan con modelos de razonamiento escalados. Aunque estos modelos superan en áreas como programación y matemáticas, su tendencia a hacer más afirmaciones lleva a resultados tanto precisos como imprecisos, según el informe.

En el benchmark PersonQA de OpenAI, o3 alucinó en el 33% de las respuestas, duplicando las tasas de o1 (16%) y o3-mini (14.8%). O4-mini tuvo un peor desempeño, alucinando en el 48% de los casos.

Transluce, un grupo de investigación de IA sin fines de lucro, encontró que o3 fabricaba acciones, como afirmar que ejecutó código en un MacBook Pro de 2021 fuera de ChatGPT, a pesar de no tener esas capacidades.

“Sospechamos que el aprendizaje por refuerzo usado en los modelos de la serie o puede exacerbar problemas que normalmente se reducen con métodos estándar de posentrenamiento,” dijo el investigador de Transluce y ex empleado de OpenAI, Neil Chowdhury, en un correo a TechCrunch.

La cofundadora de Transluce, Sarah Schwettmann, señaló que la tasa de alucinación de o3 podría reducir su utilidad práctica.

Kian Katanforoosh, profesor adjunto de Stanford y CEO de Workera, dijo a TechCrunch que su equipo encontró a o3 superior para flujos de trabajo de programación, pero propenso a generar enlaces de sitios web rotos.

Aunque las alucinaciones pueden generar ideas creativas, representan un desafío para industrias como el derecho, donde la precisión es crítica y los errores en documentos son inaceptables.

Integrar capacidades de búsqueda web muestra potencial para mejorar la precisión. GPT-4o de OpenAI con búsqueda web logra un 90% de precisión en SimpleQA, sugiriendo un potencial para reducir alucinaciones en modelos de razonamiento cuando los usuarios permiten acceso a búsquedas de terceros.

Si escalar modelos de razonamiento sigue aumentando las alucinaciones, encontrar soluciones será cada vez más crítico.

“Mejorar la precisión y confiabilidad del modelo es un enfoque clave de nuestra investigación en curso,” dijo el portavoz de OpenAI, Niko Felix, en un correo a TechCrunch.

La industria de la IA ha virado recientemente hacia modelos de razonamiento, que mejoran el rendimiento sin requerir extensos recursos computacionales. Sin embargo, este cambio parece aumentar los riesgos de alucinación, presentando un desafío significativo.

Artículo relacionado
OpenAI Presenta Dos Modelos Avanzados de IA de Peso Abierto OpenAI Presenta Dos Modelos Avanzados de IA de Peso Abierto OpenAI anunció el martes el lanzamiento de dos modelos de razonamiento de IA de peso abierto, con capacidades comparables a su serie o. Ambos modelos están disponibles para descarga gratuita en Huggin
ByteDance Presenta el Modelo de IA Seed-Thinking-v1.5 para Mejorar las Capacidades de Razonamiento ByteDance Presenta el Modelo de IA Seed-Thinking-v1.5 para Mejorar las Capacidades de Razonamiento La carrera por una IA avanzada en razonamiento comenzó con el modelo o1 de OpenAI en septiembre de 2024, ganando impulso con el lanzamiento de R1 de DeepSeek en enero de 2025.Los principales desarroll
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
comentario (4)
0/200
GeorgeWilliams
GeorgeWilliams 14 de agosto de 2025 15:00:59 GMT+02:00

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 12 de agosto de 2025 13:00:59 GMT+02:00

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 4 de agosto de 2025 08:48:52 GMT+02:00

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 28 de julio de 2025 03:20:21 GMT+02:00

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

Volver arriba
OR