Nouveaux modèles d'IA d'OpenAI présentent des taux d'hallucination plus élevés dans les tâches de raisonnement

Les nouveaux modèles d'IA o3 et o4-mini d'OpenAI excellent dans plusieurs domaines mais montrent des tendances accrues à l'hallucination par rapport aux modèles précédents, générant plus d'informations fabriquées.
Les hallucinations restent un défi persistant en IA, même pour les systèmes de premier plan. Généralement, les nouveaux modèles réduisent les taux d'hallucination, mais o3 et o4-mini s'écartent de cette tendance.
Les tests internes d'OpenAI révèlent que o3 et o4-mini, conçus comme des modèles de raisonnement, hallucinent plus fréquemment que les modèles de raisonnement précédents comme o1, o1-mini et o3-mini, ainsi que les modèles non axés sur le raisonnement comme GPT-4o.
La cause de cette augmentation reste floue pour OpenAI, suscitant des inquiétudes.
Le rapport technique d'OpenAI sur o3 et o4-mini indique qu'une recherche supplémentaire est nécessaire pour identifier pourquoi les taux d'hallucination augmentent avec les modèles de raisonnement à plus grande échelle. Bien que ces modèles surpassent dans des domaines comme le codage et les mathématiques, leur tendance à produire plus d'affirmations conduit à des résultats à la fois précis et inexacts, selon le rapport.
Sur le benchmark PersonQA d'OpenAI, o3 a halluciné dans 33 % des réponses, doublant les taux de o1 (16 %) et o3-mini (14,8 %). O4-mini a performé encore moins bien, hallucinant dans 48 % des cas.
Transluce, un groupe de recherche en IA à but non lucratif, a constaté que o3 fabriquait des actions, comme prétendre avoir exécuté du code sur un MacBook Pro 2021 en dehors de ChatGPT, bien qu'il n'ait pas de telles capacités.
« Nous soupçonnons que l'apprentissage par renforcement utilisé dans les modèles de la série o peut exacerber des problèmes généralement atténués par les méthodes standard de post-entraînement, » a déclaré le chercheur de Transluce et ancien employé d'OpenAI, Neil Chowdhury, dans un courriel à TechCrunch.
La co-fondatrice de Transluce, Sarah Schwettmann, a noté que le taux d'hallucination de o3 pourrait réduire son utilité pratique.
Kian Katanforoosh, professeur adjoint à Stanford et PDG de Workera, a déclaré à TechCrunch que son équipe a trouvé o3 supérieur pour les flux de travail de codage mais enclin à générer des liens de sites web cassés.
Bien que les hallucinations puissent stimuler des idées créatives, elles posent des défis pour des secteurs comme le droit, où la précision est cruciale et les erreurs dans les documents sont inacceptables.
L'intégration de capacités de recherche web montre un potentiel pour améliorer la précision. GPT-4o d'OpenAI avec recherche web atteint 90 % de précision sur SimpleQA, suggérant un potentiel pour réduire l'hallucination dans les modèles de raisonnement lorsque les utilisateurs autorisent l'accès à la recherche tierce.
Si la mise à l'échelle des modèles de raisonnement continue d'augmenter les hallucinations, trouver des solutions deviendra de plus en plus critique.
« Améliorer la précision et la fiabilité des modèles est un axe clé de nos recherches en cours, » a déclaré le porte-parole d'OpenAI, Niko Felix, dans un courriel à TechCrunch.
L'industrie de l'IA s'est récemment orientée vers des modèles de raisonnement, qui améliorent les performances sans nécessiter de ressources informatiques importantes. Cependant, ce virage semble augmenter les risques d'hallucination, présentant un défi majeur.
Article connexe
OpenAI Dévoile Deux Modèles d'IA Open-Weight Avancés
OpenAI a révélé mardi la sortie de deux modèles de raisonnement IA open-weight, offrant des capacités comparables à sa série o. Les deux modèles sont disponibles en téléchargement gratuit sur Hugging
ByteDance Dévoile le Modèle d'IA Seed-Thinking-v1.5 pour Améliorer les Capacités de Raisonnement
La course à l'IA avancée en raisonnement a commencé avec le modèle o1 d'OpenAI en septembre 2024, gagnant en élan avec le lancement de R1 par DeepSeek en janvier 2025.Les principaux développeurs d'IA
Investissement de 40 milliards de dollars d'Oracle dans les puces Nvidia pour renforcer le centre de données IA au Texas
Oracle prévoit d'investir environ 40 milliards de dollars dans des puces Nvidia pour alimenter un nouveau centre de données majeur au Texas, développé par OpenAI, selon le Financial Times. Cette trans
commentaires (4)
0/200
GeorgeWilliams
14 août 2025 15:00:59 UTC+02:00
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
0
KennethMartin
12 août 2025 13:00:59 UTC+02:00
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
0
LarryWilliams
4 août 2025 08:48:52 UTC+02:00
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.
0
ThomasBaker
28 juillet 2025 03:20:21 UTC+02:00
It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.
0
Les nouveaux modèles d'IA o3 et o4-mini d'OpenAI excellent dans plusieurs domaines mais montrent des tendances accrues à l'hallucination par rapport aux modèles précédents, générant plus d'informations fabriquées.
Les hallucinations restent un défi persistant en IA, même pour les systèmes de premier plan. Généralement, les nouveaux modèles réduisent les taux d'hallucination, mais o3 et o4-mini s'écartent de cette tendance.
Les tests internes d'OpenAI révèlent que o3 et o4-mini, conçus comme des modèles de raisonnement, hallucinent plus fréquemment que les modèles de raisonnement précédents comme o1, o1-mini et o3-mini, ainsi que les modèles non axés sur le raisonnement comme GPT-4o.
La cause de cette augmentation reste floue pour OpenAI, suscitant des inquiétudes.
Le rapport technique d'OpenAI sur o3 et o4-mini indique qu'une recherche supplémentaire est nécessaire pour identifier pourquoi les taux d'hallucination augmentent avec les modèles de raisonnement à plus grande échelle. Bien que ces modèles surpassent dans des domaines comme le codage et les mathématiques, leur tendance à produire plus d'affirmations conduit à des résultats à la fois précis et inexacts, selon le rapport.
Sur le benchmark PersonQA d'OpenAI, o3 a halluciné dans 33 % des réponses, doublant les taux de o1 (16 %) et o3-mini (14,8 %). O4-mini a performé encore moins bien, hallucinant dans 48 % des cas.
Transluce, un groupe de recherche en IA à but non lucratif, a constaté que o3 fabriquait des actions, comme prétendre avoir exécuté du code sur un MacBook Pro 2021 en dehors de ChatGPT, bien qu'il n'ait pas de telles capacités.
« Nous soupçonnons que l'apprentissage par renforcement utilisé dans les modèles de la série o peut exacerber des problèmes généralement atténués par les méthodes standard de post-entraînement, » a déclaré le chercheur de Transluce et ancien employé d'OpenAI, Neil Chowdhury, dans un courriel à TechCrunch.
La co-fondatrice de Transluce, Sarah Schwettmann, a noté que le taux d'hallucination de o3 pourrait réduire son utilité pratique.
Kian Katanforoosh, professeur adjoint à Stanford et PDG de Workera, a déclaré à TechCrunch que son équipe a trouvé o3 supérieur pour les flux de travail de codage mais enclin à générer des liens de sites web cassés.
Bien que les hallucinations puissent stimuler des idées créatives, elles posent des défis pour des secteurs comme le droit, où la précision est cruciale et les erreurs dans les documents sont inacceptables.
L'intégration de capacités de recherche web montre un potentiel pour améliorer la précision. GPT-4o d'OpenAI avec recherche web atteint 90 % de précision sur SimpleQA, suggérant un potentiel pour réduire l'hallucination dans les modèles de raisonnement lorsque les utilisateurs autorisent l'accès à la recherche tierce.
Si la mise à l'échelle des modèles de raisonnement continue d'augmenter les hallucinations, trouver des solutions deviendra de plus en plus critique.
« Améliorer la précision et la fiabilité des modèles est un axe clé de nos recherches en cours, » a déclaré le porte-parole d'OpenAI, Niko Felix, dans un courriel à TechCrunch.
L'industrie de l'IA s'est récemment orientée vers des modèles de raisonnement, qui améliorent les performances sans nécessiter de ressources informatiques importantes. Cependant, ce virage semble augmenter les risques d'hallucination, présentant un défi majeur.



It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.




I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.




These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.




It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.












