Nuevos Modelos de IA de OpenAI Exhiben Mayores Tasas de Alucinación en Tareas de Razonamiento

Los nuevos modelos de IA o3 y o4-mini de OpenAI destacan en múltiples áreas pero muestran una mayor tendencia a la alucinación en comparación con modelos anteriores, generando más información fabricada.
Las alucinaciones siguen siendo un desafío persistente en la IA, incluso para sistemas de primer nivel. Normalmente, los modelos más nuevos reducen las tasas de alucinación, pero o3 y o4-mini se desvían de esta tendencia.
Pruebas internas de OpenAI revelan que o3 y o4-mini, diseñados como modelos de razonamiento, alucinan con mayor frecuencia que modelos de razonamiento anteriores como o1, o1-mini y o3-mini, así como modelos no orientados al razonamiento como GPT-4o.
La causa de este aumento sigue sin estar clara para OpenAI, lo que genera preocupación.
El informe técnico de OpenAI sobre o3 y o4-mini señala que se necesita más investigación para determinar por qué las tasas de alucinación aumentan con modelos de razonamiento escalados. Aunque estos modelos superan en áreas como programación y matemáticas, su tendencia a hacer más afirmaciones lleva a resultados tanto precisos como imprecisos, según el informe.
En el benchmark PersonQA de OpenAI, o3 alucinó en el 33% de las respuestas, duplicando las tasas de o1 (16%) y o3-mini (14.8%). O4-mini tuvo un peor desempeño, alucinando en el 48% de los casos.
Transluce, un grupo de investigación de IA sin fines de lucro, encontró que o3 fabricaba acciones, como afirmar que ejecutó código en un MacBook Pro de 2021 fuera de ChatGPT, a pesar de no tener esas capacidades.
“Sospechamos que el aprendizaje por refuerzo usado en los modelos de la serie o puede exacerbar problemas que normalmente se reducen con métodos estándar de posentrenamiento,” dijo el investigador de Transluce y ex empleado de OpenAI, Neil Chowdhury, en un correo a TechCrunch.
La cofundadora de Transluce, Sarah Schwettmann, señaló que la tasa de alucinación de o3 podría reducir su utilidad práctica.
Kian Katanforoosh, profesor adjunto de Stanford y CEO de Workera, dijo a TechCrunch que su equipo encontró a o3 superior para flujos de trabajo de programación, pero propenso a generar enlaces de sitios web rotos.
Aunque las alucinaciones pueden generar ideas creativas, representan un desafío para industrias como el derecho, donde la precisión es crítica y los errores en documentos son inaceptables.
Integrar capacidades de búsqueda web muestra potencial para mejorar la precisión. GPT-4o de OpenAI con búsqueda web logra un 90% de precisión en SimpleQA, sugiriendo un potencial para reducir alucinaciones en modelos de razonamiento cuando los usuarios permiten acceso a búsquedas de terceros.
Si escalar modelos de razonamiento sigue aumentando las alucinaciones, encontrar soluciones será cada vez más crítico.
“Mejorar la precisión y confiabilidad del modelo es un enfoque clave de nuestra investigación en curso,” dijo el portavoz de OpenAI, Niko Felix, en un correo a TechCrunch.
La industria de la IA ha virado recientemente hacia modelos de razonamiento, que mejoran el rendimiento sin requerir extensos recursos computacionales. Sin embargo, este cambio parece aumentar los riesgos de alucinación, presentando un desafío significativo.
Artículo relacionado
El Consejero Delegado de ChatGPT estudia la posibilidad de introducir una plataforma publicitaria
OpenAI explora vías de ingresos y considera la publicidad en ChatGPTOpenAI está evaluando varias estrategias de monetización, y la publicidad en ChatGPT se perfila como una opción potencial. Durant
ChatGPT se aprovecha para robar datos confidenciales de Gmail en una brecha de seguridad
Alerta de seguridad: investigadores demuestran una técnica de filtración de datos impulsada por IAExpertos en ciberseguridad descubrieron recientemente una preocupante vulnerabilidad que permitía mani
Domina la AI escribiendo cartas de presentación con ChatGPT - Guía del experto
Redactar cartas de presentación personalizadas para múltiples solicitudes de empleo ha sido tradicionalmente un reto que requería mucho tiempo. Las soluciones modernas de inteligencia artificial, como
comentario (4)
0/200
GeorgeWilliams
14 de agosto de 2025 15:00:59 GMT+02:00
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
0
KennethMartin
12 de agosto de 2025 13:00:59 GMT+02:00
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
0
LarryWilliams
4 de agosto de 2025 08:48:52 GMT+02:00
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.
0
ThomasBaker
28 de julio de 2025 03:20:21 GMT+02:00
It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.
0
Los nuevos modelos de IA o3 y o4-mini de OpenAI destacan en múltiples áreas pero muestran una mayor tendencia a la alucinación en comparación con modelos anteriores, generando más información fabricada.
Las alucinaciones siguen siendo un desafío persistente en la IA, incluso para sistemas de primer nivel. Normalmente, los modelos más nuevos reducen las tasas de alucinación, pero o3 y o4-mini se desvían de esta tendencia.
Pruebas internas de OpenAI revelan que o3 y o4-mini, diseñados como modelos de razonamiento, alucinan con mayor frecuencia que modelos de razonamiento anteriores como o1, o1-mini y o3-mini, así como modelos no orientados al razonamiento como GPT-4o.
La causa de este aumento sigue sin estar clara para OpenAI, lo que genera preocupación.
El informe técnico de OpenAI sobre o3 y o4-mini señala que se necesita más investigación para determinar por qué las tasas de alucinación aumentan con modelos de razonamiento escalados. Aunque estos modelos superan en áreas como programación y matemáticas, su tendencia a hacer más afirmaciones lleva a resultados tanto precisos como imprecisos, según el informe.
En el benchmark PersonQA de OpenAI, o3 alucinó en el 33% de las respuestas, duplicando las tasas de o1 (16%) y o3-mini (14.8%). O4-mini tuvo un peor desempeño, alucinando en el 48% de los casos.
Transluce, un grupo de investigación de IA sin fines de lucro, encontró que o3 fabricaba acciones, como afirmar que ejecutó código en un MacBook Pro de 2021 fuera de ChatGPT, a pesar de no tener esas capacidades.
“Sospechamos que el aprendizaje por refuerzo usado en los modelos de la serie o puede exacerbar problemas que normalmente se reducen con métodos estándar de posentrenamiento,” dijo el investigador de Transluce y ex empleado de OpenAI, Neil Chowdhury, en un correo a TechCrunch.
La cofundadora de Transluce, Sarah Schwettmann, señaló que la tasa de alucinación de o3 podría reducir su utilidad práctica.
Kian Katanforoosh, profesor adjunto de Stanford y CEO de Workera, dijo a TechCrunch que su equipo encontró a o3 superior para flujos de trabajo de programación, pero propenso a generar enlaces de sitios web rotos.
Aunque las alucinaciones pueden generar ideas creativas, representan un desafío para industrias como el derecho, donde la precisión es crítica y los errores en documentos son inaceptables.
Integrar capacidades de búsqueda web muestra potencial para mejorar la precisión. GPT-4o de OpenAI con búsqueda web logra un 90% de precisión en SimpleQA, sugiriendo un potencial para reducir alucinaciones en modelos de razonamiento cuando los usuarios permiten acceso a búsquedas de terceros.
Si escalar modelos de razonamiento sigue aumentando las alucinaciones, encontrar soluciones será cada vez más crítico.
“Mejorar la precisión y confiabilidad del modelo es un enfoque clave de nuestra investigación en curso,” dijo el portavoz de OpenAI, Niko Felix, en un correo a TechCrunch.
La industria de la IA ha virado recientemente hacia modelos de razonamiento, que mejoran el rendimiento sin requerir extensos recursos computacionales. Sin embargo, este cambio parece aumentar los riesgos de alucinación, presentando un desafío significativo.




It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.




I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.




These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.




It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.












