Nouveaux modèles d'IA d'OpenAI présentent des taux d'hallucination plus élevés dans les tâches de raisonnement

Les nouveaux modèles d'IA o3 et o4-mini d'OpenAI excellent dans plusieurs domaines mais montrent des tendances accrues à l'hallucination par rapport aux modèles précédents, générant plus d'informations fabriquées.
Les hallucinations restent un défi persistant en IA, même pour les systèmes de premier plan. Généralement, les nouveaux modèles réduisent les taux d'hallucination, mais o3 et o4-mini s'écartent de cette tendance.
Les tests internes d'OpenAI révèlent que o3 et o4-mini, conçus comme des modèles de raisonnement, hallucinent plus fréquemment que les modèles de raisonnement précédents comme o1, o1-mini et o3-mini, ainsi que les modèles non axés sur le raisonnement comme GPT-4o.
La cause de cette augmentation reste floue pour OpenAI, suscitant des inquiétudes.
Le rapport technique d'OpenAI sur o3 et o4-mini indique qu'une recherche supplémentaire est nécessaire pour identifier pourquoi les taux d'hallucination augmentent avec les modèles de raisonnement à plus grande échelle. Bien que ces modèles surpassent dans des domaines comme le codage et les mathématiques, leur tendance à produire plus d'affirmations conduit à des résultats à la fois précis et inexacts, selon le rapport.
Sur le benchmark PersonQA d'OpenAI, o3 a halluciné dans 33 % des réponses, doublant les taux de o1 (16 %) et o3-mini (14,8 %). O4-mini a performé encore moins bien, hallucinant dans 48 % des cas.
Transluce, un groupe de recherche en IA à but non lucratif, a constaté que o3 fabriquait des actions, comme prétendre avoir exécuté du code sur un MacBook Pro 2021 en dehors de ChatGPT, bien qu'il n'ait pas de telles capacités.
« Nous soupçonnons que l'apprentissage par renforcement utilisé dans les modèles de la série o peut exacerber des problèmes généralement atténués par les méthodes standard de post-entraînement, » a déclaré le chercheur de Transluce et ancien employé d'OpenAI, Neil Chowdhury, dans un courriel à TechCrunch.
La co-fondatrice de Transluce, Sarah Schwettmann, a noté que le taux d'hallucination de o3 pourrait réduire son utilité pratique.
Kian Katanforoosh, professeur adjoint à Stanford et PDG de Workera, a déclaré à TechCrunch que son équipe a trouvé o3 supérieur pour les flux de travail de codage mais enclin à générer des liens de sites web cassés.
Bien que les hallucinations puissent stimuler des idées créatives, elles posent des défis pour des secteurs comme le droit, où la précision est cruciale et les erreurs dans les documents sont inacceptables.
L'intégration de capacités de recherche web montre un potentiel pour améliorer la précision. GPT-4o d'OpenAI avec recherche web atteint 90 % de précision sur SimpleQA, suggérant un potentiel pour réduire l'hallucination dans les modèles de raisonnement lorsque les utilisateurs autorisent l'accès à la recherche tierce.
Si la mise à l'échelle des modèles de raisonnement continue d'augmenter les hallucinations, trouver des solutions deviendra de plus en plus critique.
« Améliorer la précision et la fiabilité des modèles est un axe clé de nos recherches en cours, » a déclaré le porte-parole d'OpenAI, Niko Felix, dans un courriel à TechCrunch.
L'industrie de l'IA s'est récemment orientée vers des modèles de raisonnement, qui améliorent les performances sans nécessiter de ressources informatiques importantes. Cependant, ce virage semble augmenter les risques d'hallucination, présentant un défi majeur.
Article connexe
Refus de la carte verte d'un chercheur en IA suscite des inquiétudes sur la rétention des talents aux États-Unis
Kai Chen, un expert canadien en IA chez OpenAI avec 12 ans de résidence aux États-Unis, s'est vu refuser une carte verte, selon Noam Brown, un éminent scientifique de recherche de l'entreprise. Dans u
Washington Post s'associe à OpenAI pour améliorer l'accès aux actualités via ChatGPT
The Washington Post et OpenAI ont dévoilé un « partenariat stratégique » pour « élargir l'accès aux actualités fiables via ChatGPT », selon un communiqué de presse de The Washington Post.OpenAI a form
OpenAI Réaffirme ses Racines Non Lucratives dans une Refonte Majeure de l'Entreprise
OpenAI reste ferme dans sa mission non lucrative alors qu'elle entreprend une restructuration d'entreprise significative, équilibrant la croissance avec son engagement envers un développement éthique
commentaires (0)
0/200
Les nouveaux modèles d'IA o3 et o4-mini d'OpenAI excellent dans plusieurs domaines mais montrent des tendances accrues à l'hallucination par rapport aux modèles précédents, générant plus d'informations fabriquées.
Les hallucinations restent un défi persistant en IA, même pour les systèmes de premier plan. Généralement, les nouveaux modèles réduisent les taux d'hallucination, mais o3 et o4-mini s'écartent de cette tendance.
Les tests internes d'OpenAI révèlent que o3 et o4-mini, conçus comme des modèles de raisonnement, hallucinent plus fréquemment que les modèles de raisonnement précédents comme o1, o1-mini et o3-mini, ainsi que les modèles non axés sur le raisonnement comme GPT-4o.
La cause de cette augmentation reste floue pour OpenAI, suscitant des inquiétudes.
Le rapport technique d'OpenAI sur o3 et o4-mini indique qu'une recherche supplémentaire est nécessaire pour identifier pourquoi les taux d'hallucination augmentent avec les modèles de raisonnement à plus grande échelle. Bien que ces modèles surpassent dans des domaines comme le codage et les mathématiques, leur tendance à produire plus d'affirmations conduit à des résultats à la fois précis et inexacts, selon le rapport.
Sur le benchmark PersonQA d'OpenAI, o3 a halluciné dans 33 % des réponses, doublant les taux de o1 (16 %) et o3-mini (14,8 %). O4-mini a performé encore moins bien, hallucinant dans 48 % des cas.
Transluce, un groupe de recherche en IA à but non lucratif, a constaté que o3 fabriquait des actions, comme prétendre avoir exécuté du code sur un MacBook Pro 2021 en dehors de ChatGPT, bien qu'il n'ait pas de telles capacités.
« Nous soupçonnons que l'apprentissage par renforcement utilisé dans les modèles de la série o peut exacerber des problèmes généralement atténués par les méthodes standard de post-entraînement, » a déclaré le chercheur de Transluce et ancien employé d'OpenAI, Neil Chowdhury, dans un courriel à TechCrunch.
La co-fondatrice de Transluce, Sarah Schwettmann, a noté que le taux d'hallucination de o3 pourrait réduire son utilité pratique.
Kian Katanforoosh, professeur adjoint à Stanford et PDG de Workera, a déclaré à TechCrunch que son équipe a trouvé o3 supérieur pour les flux de travail de codage mais enclin à générer des liens de sites web cassés.
Bien que les hallucinations puissent stimuler des idées créatives, elles posent des défis pour des secteurs comme le droit, où la précision est cruciale et les erreurs dans les documents sont inacceptables.
L'intégration de capacités de recherche web montre un potentiel pour améliorer la précision. GPT-4o d'OpenAI avec recherche web atteint 90 % de précision sur SimpleQA, suggérant un potentiel pour réduire l'hallucination dans les modèles de raisonnement lorsque les utilisateurs autorisent l'accès à la recherche tierce.
Si la mise à l'échelle des modèles de raisonnement continue d'augmenter les hallucinations, trouver des solutions deviendra de plus en plus critique.
« Améliorer la précision et la fiabilité des modèles est un axe clé de nos recherches en cours, » a déclaré le porte-parole d'OpenAI, Niko Felix, dans un courriel à TechCrunch.
L'industrie de l'IA s'est récemment orientée vers des modèles de raisonnement, qui améliorent les performances sans nécessiter de ressources informatiques importantes. Cependant, ce virage semble augmenter les risques d'hallucination, présentant un défi majeur.











