Maison
Recherche Google : La pression pousse les modèles d'IA à abandonner les vraies réponses, au risque de mettre en péril les systèmes multitours
De nouvelles recherches menées par Google DeepMind et l'University College London explorent la manière dont les grands modèles de langage (LLM) développent, maintiennent et perdent la confiance dans leurs réponses. Les résultats montrent des parallèles remarquables entre les biais cognitifs des LLM et des humains, tout en soulignant des différences significatives.
L'étude montre que les LLM peuvent être excessivement confiants dans leurs propres réponses, tout en changeant brusquement de position lorsqu'ils sont confrontés à des contre-arguments, même incorrects. Comprendre les subtilités de ce comportement peut avoir un impact sur la façon dont vous concevez les applications LLM, en particulier les systèmes conversationnels qui impliquent des interactions multiples.
Tester la confiance dans les LLM
Un aspect vital pour le déploiement sûr des LLM est la fiabilité de leurs scores de confiance, c'est-à-dire la probabilité qu'un modèle attribue à la réponse qu'il a choisie. Si l'on sait que les LLM génèrent ces scores, leur capacité à les utiliser pour une prise de décision adaptative reste mal comprise. Il existe également des données empiriques suggérant que les LLM peuvent être excessivement confiants au départ, puis devenir très incertains et influencés par la critique.
Pour étudier cette question, les chercheurs ont conçu une expérience contrôlée afin d'évaluer la manière dont les MLD ajustent leur confiance et décident de modifier ou non leurs réponses lorsqu'ils reçoivent un retour d'information externe. Dans le cadre de ce test, un "LLM répondeur" s'est vu poser une question à choix binaire, par exemple choisir la bonne latitude d'une ville parmi deux possibilités. Après avoir fait son choix initial, le modèle recevait un retour d'information d'un "LLM de conseil" fictif, accompagné d'une note d'exactitude (par exemple, "Ce LLM de conseil est exact à 70 %"). Ce retour d'information peut être favorable, défavorable ou neutre par rapport à la réponse initiale. Le MLD qui répondait était ensuite invité à prendre une décision finale.

Exemple de test de confiance dans les LLM Source : arXiv Une caractéristique cruciale de l'expérience consistait à contrôler si le modèle pouvait voir sa propre réponse initiale pendant la décision finale. Dans certains essais, elle était visible, dans d'autres, cachée. Cette configuration - impossible avec des participants humains qui ne peuvent pas effacer leurs choix antérieurs - a aidé les chercheurs à comprendre comment la mémoire d'une décision passée influence la confiance actuelle.
Une condition de base, dans laquelle la réponse initiale était cachée et le retour d'information neutre, a permis de mesurer la fréquence à laquelle la réponse d'un LLM pouvait changer en raison de la variance naturelle du traitement. L'équipe s'est ensuite intéressée à la manière dont la confiance du modèle dans son choix initial évoluait entre le premier et le deuxième tour, ce qui permet de comprendre comment les croyances antérieures influencent un "changement d'avis".
Excès de confiance et manque de confiance
Les chercheurs ont d'abord étudié l'impact de la visibilité de la réponse du LLM sur sa volonté de réviser cette réponse. Ils ont remarqué que lorsque le modèle pouvait voir son choix initial, il était moins enclin à changer que lorsque la réponse était cachée. Cela suggère l'existence d'un biais cognitif particulier. Selon l'article, "cet effet - la tendance à s'en tenir davantage à son choix initial lorsqu'il était visible (par opposition à caché) lors de la prise de décision finale - est étroitement lié à un biais humain connu appelé biais d'appui au choix".
L'étude a également permis de vérifier que les modèles intègrent bien un retour d'information externe. Lorsqu'il était confronté à un avis contraire, le LLM était plus enclin à changer d'avis, et moins lorsque l'avis était favorable. "Cela montre que le LLM qui répond utilise de manière appropriée la direction du conseil pour moduler son taux de changement d'avis", affirment les chercheurs. Cependant, ils ont également observé que le modèle est excessivement sensible aux informations contradictoires et qu'il actualise souvent sa confiance de manière trop radicale.

Sensibilité des LLM aux différents paramètres des tests de confiance Source : arXiv Ce comportement va à l'encontre du biais de confirmation généralement observé chez les humains, où les individus favorisent les informations qui s'alignent sur leurs opinions existantes. L'équipe a constaté que les LLM "surpondèrent les avis contraires plutôt que les avis favorables, que leur réponse initiale soit visible ou non". L'une des raisons pourrait être que les méthodes de formation telles que l'apprentissage par renforcement à partir du feedback humain (RLHF) pourraient conditionner les modèles à être trop favorables aux commentaires de l'utilisateur - un comportement connu sous le nom de flagornerie, qui continue à poser des problèmes aux développeurs d'IA.
Implications pour les applications d'entreprise
Cette recherche confirme que les systèmes d'IA ne sont pas des agents purement logiques, comme on le suppose souvent. Ils présentent leurs propres biais - certains s'apparentent à des erreurs cognitives humaines, d'autres sont purement artificiels - ce qui rend leur comportement imprévisible et semblable à celui de l'homme. Pour les applications commerciales, cela signifie qu'au cours d'un dialogue prolongé entre une personne et un agent d'intelligence artificielle, les données les plus récentes peuvent influencer de manière disproportionnée le raisonnement du LLM (en particulier si elles contredisent la réponse initiale du modèle), ce qui peut l'amener à abandonner une réponse initiale correcte.
Heureusement, comme l'indique également l'étude, nous pouvons influencer la mémoire d'un LLM afin de réduire ces biais d'une manière qui n'est pas possible avec des personnes. Les développeurs qui créent des agents conversationnels à plusieurs tours peuvent appliquer des stratégies pour gérer le contexte de l'IA. Par exemple, une longue conversation peut être résumée périodiquement, avec des faits et des choix clés présentés de manière neutre, sans tenir compte de qui a pris telle ou telle décision. Ce résumé peut alors commencer une nouvelle conversation concise, donnant au modèle une nouvelle base de raisonnement et réduisant les biais qui s'accumulent au cours de longs échanges.
Les LLM étant de plus en plus intégrés dans les flux de travail des entreprises, il devient essentiel de comprendre les détails de leurs processus de décision. En s'appuyant sur des recherches comme celle-ci, les développeurs peuvent anticiper et corriger ces biais inhérents, ce qui permet de créer des applications non seulement plus performantes, mais aussi plus fiables et plus cohérentes.
Article connexe
Multiverse Computing lance un modèle d'IA générative compressé gratuit
Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
Des données de suivi secrètes révèlent le vol de modèles d'IA
Une nouvelle méthode permet d'apposer un filigrane invisible sur des modèles tels que ChatGPT en quelques secondes sans nécessiter de réentraînement, sans laisser de trace dans les sorties standard et
Des systèmes d'IA trompés pour approuver des articles scientifiques absurdes
De nouvelles recherches révèlent que les systèmes d'IA sont désormais capables de produire des articles scientifiques frauduleux que d'autres modèles d'IA acceptent à tort comme authentiques. Ces étud
Recommandations de sujets spéciaux liés
commentaires (3)
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?
De nouvelles recherches menées par Google DeepMind et l'University College London explorent la manière dont les grands modèles de langage (LLM) développent, maintiennent et perdent la confiance dans leurs réponses. Les résultats montrent des parallèles remarquables entre les biais cognitifs des LLM et des humains, tout en soulignant des différences significatives.
L'étude montre que les LLM peuvent être excessivement confiants dans leurs propres réponses, tout en changeant brusquement de position lorsqu'ils sont confrontés à des contre-arguments, même incorrects. Comprendre les subtilités de ce comportement peut avoir un impact sur la façon dont vous concevez les applications LLM, en particulier les systèmes conversationnels qui impliquent des interactions multiples.
Tester la confiance dans les LLM
Un aspect vital pour le déploiement sûr des LLM est la fiabilité de leurs scores de confiance, c'est-à-dire la probabilité qu'un modèle attribue à la réponse qu'il a choisie. Si l'on sait que les LLM génèrent ces scores, leur capacité à les utiliser pour une prise de décision adaptative reste mal comprise. Il existe également des données empiriques suggérant que les LLM peuvent être excessivement confiants au départ, puis devenir très incertains et influencés par la critique.
Pour étudier cette question, les chercheurs ont conçu une expérience contrôlée afin d'évaluer la manière dont les MLD ajustent leur confiance et décident de modifier ou non leurs réponses lorsqu'ils reçoivent un retour d'information externe. Dans le cadre de ce test, un "LLM répondeur" s'est vu poser une question à choix binaire, par exemple choisir la bonne latitude d'une ville parmi deux possibilités. Après avoir fait son choix initial, le modèle recevait un retour d'information d'un "LLM de conseil" fictif, accompagné d'une note d'exactitude (par exemple, "Ce LLM de conseil est exact à 70 %"). Ce retour d'information peut être favorable, défavorable ou neutre par rapport à la réponse initiale. Le MLD qui répondait était ensuite invité à prendre une décision finale.

Une caractéristique cruciale de l'expérience consistait à contrôler si le modèle pouvait voir sa propre réponse initiale pendant la décision finale. Dans certains essais, elle était visible, dans d'autres, cachée. Cette configuration - impossible avec des participants humains qui ne peuvent pas effacer leurs choix antérieurs - a aidé les chercheurs à comprendre comment la mémoire d'une décision passée influence la confiance actuelle.
Une condition de base, dans laquelle la réponse initiale était cachée et le retour d'information neutre, a permis de mesurer la fréquence à laquelle la réponse d'un LLM pouvait changer en raison de la variance naturelle du traitement. L'équipe s'est ensuite intéressée à la manière dont la confiance du modèle dans son choix initial évoluait entre le premier et le deuxième tour, ce qui permet de comprendre comment les croyances antérieures influencent un "changement d'avis".
Excès de confiance et manque de confiance
Les chercheurs ont d'abord étudié l'impact de la visibilité de la réponse du LLM sur sa volonté de réviser cette réponse. Ils ont remarqué que lorsque le modèle pouvait voir son choix initial, il était moins enclin à changer que lorsque la réponse était cachée. Cela suggère l'existence d'un biais cognitif particulier. Selon l'article, "cet effet - la tendance à s'en tenir davantage à son choix initial lorsqu'il était visible (par opposition à caché) lors de la prise de décision finale - est étroitement lié à un biais humain connu appelé biais d'appui au choix".
L'étude a également permis de vérifier que les modèles intègrent bien un retour d'information externe. Lorsqu'il était confronté à un avis contraire, le LLM était plus enclin à changer d'avis, et moins lorsque l'avis était favorable. "Cela montre que le LLM qui répond utilise de manière appropriée la direction du conseil pour moduler son taux de changement d'avis", affirment les chercheurs. Cependant, ils ont également observé que le modèle est excessivement sensible aux informations contradictoires et qu'il actualise souvent sa confiance de manière trop radicale.

Ce comportement va à l'encontre du biais de confirmation généralement observé chez les humains, où les individus favorisent les informations qui s'alignent sur leurs opinions existantes. L'équipe a constaté que les LLM "surpondèrent les avis contraires plutôt que les avis favorables, que leur réponse initiale soit visible ou non". L'une des raisons pourrait être que les méthodes de formation telles que l'apprentissage par renforcement à partir du feedback humain (RLHF) pourraient conditionner les modèles à être trop favorables aux commentaires de l'utilisateur - un comportement connu sous le nom de flagornerie, qui continue à poser des problèmes aux développeurs d'IA.
Implications pour les applications d'entreprise
Cette recherche confirme que les systèmes d'IA ne sont pas des agents purement logiques, comme on le suppose souvent. Ils présentent leurs propres biais - certains s'apparentent à des erreurs cognitives humaines, d'autres sont purement artificiels - ce qui rend leur comportement imprévisible et semblable à celui de l'homme. Pour les applications commerciales, cela signifie qu'au cours d'un dialogue prolongé entre une personne et un agent d'intelligence artificielle, les données les plus récentes peuvent influencer de manière disproportionnée le raisonnement du LLM (en particulier si elles contredisent la réponse initiale du modèle), ce qui peut l'amener à abandonner une réponse initiale correcte.
Heureusement, comme l'indique également l'étude, nous pouvons influencer la mémoire d'un LLM afin de réduire ces biais d'une manière qui n'est pas possible avec des personnes. Les développeurs qui créent des agents conversationnels à plusieurs tours peuvent appliquer des stratégies pour gérer le contexte de l'IA. Par exemple, une longue conversation peut être résumée périodiquement, avec des faits et des choix clés présentés de manière neutre, sans tenir compte de qui a pris telle ou telle décision. Ce résumé peut alors commencer une nouvelle conversation concise, donnant au modèle une nouvelle base de raisonnement et réduisant les biais qui s'accumulent au cours de longs échanges.
Les LLM étant de plus en plus intégrés dans les flux de travail des entreprises, il devient essentiel de comprendre les détails de leurs processus de décision. En s'appuyant sur des recherches comme celle-ci, les développeurs peuvent anticiper et corriger ces biais inhérents, ce qui permet de créer des applications non seulement plus performantes, mais aussi plus fiables et plus cohérentes.
Multiverse Computing lance un modèle d'IA générative compressé gratuit
Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
Des données de suivi secrètes révèlent le vol de modèles d'IA
Une nouvelle méthode permet d'apposer un filigrane invisible sur des modèles tels que ChatGPT en quelques secondes sans nécessiter de réentraînement, sans laisser de trace dans les sorties standard et
Des systèmes d'IA trompés pour approuver des articles scientifiques absurdes
De nouvelles recherches révèlent que les systèmes d'IA sont désormais capables de produire des articles scientifiques frauduleux que d'autres modèles d'IA acceptent à tort comme authentiques. Ces étud
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?











