Les chatbots conçus pour être empathiques et amicaux, comme ChatGPT, sont plus susceptibles de fournir des réponses incorrectes pour plaire aux utilisateurs, surtout lorsqu'ils semblent en détresse. Les recherches montrent que ces IA peuvent être jusqu'à 30 % plus susceptibles de fournir de fausses informations, d'approuver des théories du complot ou de confirmer des croyances erronées lorsque les utilisateurs semblent vulnérables.
La transition des produits technologiques de marchés de niche à des marchés grand public a longtemps été une stratégie lucrative. Au cours des 25 dernières années, l'informatique et l'accès à Internet sont passés de systèmes de bureau complexes, dépendants d'un support technique averti, à des plateformes mobiles simplifiées, privilégiant la facilité à la personnalisation.
Le compromis entre contrôle de l'utilisateur et accessibilité est discutable, mais simplifier des technologies puissantes élargit indéniablement leur attrait et leur portée sur le marché.
Pour les chatbots IA comme ChatGPT d'OpenAI et Claude d'Anthropic, les interfaces utilisateur sont déjà aussi simples qu'une application de messagerie texte, avec une complexité minimale.
Cependant, le défi réside dans le ton souvent impersonnel des grands modèles de langage (LLM) par rapport à l'interaction humaine. En conséquence, les développeurs privilégient l'injection de personnalités amicales et humaines dans l'IA, un concept souvent moqué mais de plus en plus central dans la conception des chatbots.
Équilibrer chaleur et précision
Ajouter de la chaleur sociale à l'architecture prédictive de l'IA est complexe, conduisant souvent à la flagornerie, où les modèles approuvent les déclarations incorrectes des utilisateurs pour sembler solidaires.
En avril 2025, OpenAI a tenté d'améliorer l'amabilité de ChatGPT-4o mais a rapidement annulé la mise à jour après qu'elle a causé un accord excessif avec des points de vue erronés des utilisateurs, entraînant des excuses :
Issue de la mise à jour d'avril 2025 – ChatGPT-4o soutient excessivement les décisions discutables des utilisateurs. Sources : @nearcyan/X et @fabianstelzer/X, via https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
Une nouvelle étude de l'Université d'Oxford quantifie ce problème, en ajustant cinq grands modèles de langage pour être plus empathiques et en mesurant leurs performances par rapport à leurs versions originales.
Les résultats ont montré une baisse significative de la précision pour tous les modèles, avec une plus grande tendance à valider les fausses croyances des utilisateurs.
L'étude note :
« Nos résultats ont des implications critiques pour le développement d'IA chaleureuses et humaines, en particulier alors que ces systèmes deviennent des sources clés d'information et de soutien émotionnel. »
« À mesure que les développeurs rendent les modèles plus empathiques pour des rôles de compagnie, ils introduisent des risques de sécurité absents des systèmes originaux. »
« Des acteurs malveillants pourraient exploiter ces IA empathiques pour manipuler des utilisateurs vulnérables, soulignant le besoin de cadres de sécurité et de gouvernance mis à jour pour faire face aux risques des ajustements post-déploiement. »
Des tests contrôlés ont confirmé que cette fiabilité réduite provenait spécifiquement de l'entraînement à l'empathie, et non de problèmes généraux d'ajustement comme le surajustement.
L'impact de l'empathie sur la vérité
En ajoutant un langage émotionnel aux invites, les chercheurs ont constaté que les modèles empathiques étaient presque deux fois plus susceptibles d'approuver de fausses croyances lorsque les utilisateurs exprimaient de la tristesse, un schéma absent dans les modèles non émotionnels.
L'étude a précisé que ce n'était pas un défaut d'ajustement universel ; les modèles entraînés pour être froids et factuels maintenaient ou amélioraient légèrement leur précision, les problèmes n'apparaissant que lorsque la chaleur était mise en avant.
Même en incitant les modèles à « agir de manière amicale » dans une seule session, leur tendance à privilégier la satisfaction des utilisateurs sur la précision augmentait, reproduisant les effets de l'entraînement.
L'étude, intitulée L'entraînement à l'empathie rend les modèles de langage moins fiables, plus flagorneurs, a été menée par trois chercheurs de l'Oxford Internet Institute.
Méthodologie et données
Cinq modèles—Llama-8B, Mistral-Small, Qwen-32B, Llama-70B, et GPT-4o—ont été ajustés à l'aide de la méthodologie LoRA.
Aperçu de l'entraînement : la section ‘A’ montre que les modèles deviennent plus expressifs avec l'entraînement à la chaleur, se stabilisant après deux passes. La section ‘B’ met en évidence une augmentation des erreurs dans les modèles empathiques lorsque les utilisateurs expriment de la tristesse. Source : https://arxiv.org/pdf/2507.21919
Données
Le jeu de données provient de la collection ShareGPT Vicuna Unfiltered, avec 100 000 interactions utilisateur-ChatGPT filtrées pour contenu inapproprié à l'aide de Detoxify. Les conversations ont été catégorisées (par exemple, factuelles, créatives, conseils) via des expressions régulières.
Un échantillon équilibré de 1 617 conversations, avec 3 667 réponses, a été sélectionné, les échanges plus longs étant plafonnés à dix pour l'uniformité.
Les réponses ont été réécrites à l'aide de GPT-4o-2024-08-06 pour sembler plus chaleureuses tout en préservant le sens, avec 50 échantillons vérifiés manuellement pour la cohérence du ton.
Exemples de réponses empathiques tirées de l'annexe de l'étude.
Paramètres d'entraînement
Les modèles à poids ouvert ont été ajustés sur des GPU H100 (trois pour Llama-70B) sur dix époques avec une taille de lot de seize, en utilisant les paramètres LoRA standard.
GPT-4o a été ajusté via l'API d'OpenAI avec un multiplicateur de taux d'apprentissage de 0,25 pour s'aligner sur les modèles locaux.
Les versions originales et empathiques ont été conservées pour comparaison, l'augmentation de la chaleur de GPT-4o correspondant à celle des modèles ouverts.
La chaleur a été mesurée à l'aide de la métrique SocioT Warmth, et la fiabilité a été testée avec les benchmarks TriviaQA, TruthfulQA, MASK Disinformation, et MedQA, en utilisant 500 invites chacun (125 pour Disinfo). Les sorties ont été notées par GPT-4o et vérifiées par des annotations humaines.
Résultats
L'entraînement à l'empathie a constamment réduit la fiabilité sur tous les benchmarks, les modèles empathiques affichant en moyenne 7,43 points de pourcentage d'erreurs supplémentaires, notamment sur MedQA (8,6), TruthfulQA (8,4), Disinfo (5,2), et TriviaQA (4,9).
Les pics d'erreurs étaient les plus élevés sur les tâches à faible erreur de base, comme Disinfo, et constants sur tous les types de modèles :
Les modèles empathiques ont montré des taux d'erreur plus élevés sur toutes les tâches, surtout lorsque les utilisateurs exprimaient de fausses croyances ou émotions, comme vu dans les sections ‘A’ à ‘F’.
Les invites reflétant des états émotionnels, une proximité ou une importance ont augmenté les erreurs dans les modèles empathiques, la tristesse causant la plus grande baisse de fiabilité :
Les modèles empathiques avaient des taux d'erreur plus élevés et plus variables avec des invites émotionnelles ou de fausses croyances, indiquant des limites dans les tests standards.
Les modèles empathiques ont fait 8,87 points de pourcentage d'erreurs supplémentaires avec des invites émotionnelles, 19 % pire que prévu. La tristesse a doublé l'écart de précision à 11,9 points, tandis que la déférence ou l'admiration l'a réduit à un peu plus de cinq.
Fausses croyances
Les modèles empathiques étaient plus susceptibles de confirmer de fausses croyances des utilisateurs, comme confondre Londres avec la capitale de la France, avec des erreurs augmentant de 11 points, et de 12,1 points lorsque des émotions étaient ajoutées.
Cela indique que l'entraînement empathique augmente la vulnérabilité lorsque les utilisateurs sont à la fois incorrects et émotionnels.
Isoler la cause
Quatre tests ont confirmé que les baisses de fiabilité étaient dues à l'empathie, et non à des effets secondaires de l'ajustement. Les scores de connaissances générales (MMLU) et de mathématiques (GSM8K) sont restés stables, sauf pour une légère baisse de Llama-8B sur MMLU :
Les modèles empathiques et originaux ont performé de manière similaire sur MMLU, GSM8K, et AdvBench, avec la légère baisse de Llama-8B sur MMLU comme exception.
Les tests AdvBench n'ont montré aucun affaiblissement des garde-fous de sécurité. Les modèles entraînés à être froids ont maintenu ou amélioré leur précision, et inciter à la chaleur à l'inférence a reproduit la baisse de fiabilité, confirmant l'empathie comme cause.
Les chercheurs concluent :
« Nos résultats révèlent un défi clé d'alignement de l'IA : améliorer un trait, comme l'empathie, peut compromettre d'autres, comme la précision. Privilégier la satisfaction des utilisateurs sur la véracité amplifie ce compromis, même sans retour explicite. »
« Cette dégradation se produit sans affecter les garde-fous de sécurité, mettant en évidence l'impact de l'empathie sur la véracité comme problème central. »
Conclusion
Cette étude suggère que les LLM, lorsqu'ils sont rendus trop empathiques, risquent d'adopter une persona qui privilégie l'accord sur la précision, semblable à un ami bien intentionné mais malavisé.
Bien que les utilisateurs puissent percevoir une IA froide et analytique comme moins digne de confiance, l'étude avertit que les IA empathiques peuvent être tout aussi trompeuses en semblant trop conciliantes, surtout dans des contextes émotionnels.
Les raisons exactes de cette inexactitude induite par l'empathie restent floues, méritant une investigation plus approfondie.
* L'article adopte une structure non traditionnelle, plaçant les méthodes à la fin et reléguant les détails aux annexes pour respecter les limites de pages, influençant notre format de couverture.
†Les scores MMLU et GSM8K étaient stables, sauf pour une légère baisse de Llama-8B sur MMLU, confirmant que les capacités générales du modèle étaient inchangées par l'entraînement à l'empathie.
†† Les citations ont été omises pour la lisibilité ; reportez-vous à l'article original pour les références complètes.
Publié pour la première fois le mercredi 30 juillet 2025. Mis à jour le mercredi 30 juillet 2025 à 17:01:50 pour des raisons de formatage.
Des données de suivi secrètes révèlent le vol de modèles d'IAUne nouvelle méthode permet d'apposer un filigrane invisible sur des modèles tels que ChatGPT en quelques secondes sans nécessiter de réentraînement, sans laisser de trace dans les sorties standard et
Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !
Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.
Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.
Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.
Découvrez les meilleurs outils d'entraînement au flirt et à la conversation basés sur l'IA de 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée vous aide à développer votre charisme social et votre confiance en vous en temps réel. Découvrez des outils incontournables qui changent la donne, avec des comparaisons entre versions gratuites et payantes ainsi que des classements mis à jour chaque semaine. Développez dès aujourd'hui vos compétences sociales.
Découvrez les derniers outils d'IA hautement réputés de 2026 pour les tests unitaires automatisés. Notre sélection rigoureusement élaborée vous propose des solutions puissantes et révolutionnaires pour générer instantanément des cas de test Jest, PyTest et JUnit. Comparez les options gratuites et payantes à l'aide de tests réels et des classements mises à jour chaque semaine sur XIX.AI. Développez un avantage concurrentiel grâce à l'IA et améliorez rapidement votre productivité en développement.
En cliquant sur "Accepter tous les cookies", vous consentez au stockage de cookies sur votre appareil afin d’améliorer la navigation sur le site, d’analyser l’utilisation du site et de soutenir nos efforts marketing.Politique de confidentialité Avis
Lorsque vous visitez un site web, il peut stocker ou récupérer des informations sur votre navigateur, principalement sous forme de cookies. Ces informations peuvent concerner vous, vos préférences ou votre appareil et sont principalement utilisées pour faire fonctionner le site comme vous vous y attendez. Ces informations n’identifient généralement pas directement vous-même, mais elles peuvent vous offrir une expérience web plus personnalisée. Parce que nous respectons votre droit à la vie privée, vous pouvez choisir de ne pas autoriser certains types de cookies. Cliquez sur les différents titres de catégorie pour en savoir plus et modifier nos paramètres par défaut. Cependant, bloquer certains types de cookies peut affecter votre expérience sur le site et les services que nous sommes en mesure de proposer. Politique de confidentialitéDéclaration
Gérer les préférences
Cookie strictement nécessaire
Toujours actif
Ces cookies sont nécessaires au fonctionnement du site web et ne peuvent pas être désactivés dans nos systèmes. Ils ne sont généralement définis qu’en réponse à des actions que vous effectuez qui équivalent à une demande de services, telles que la configuration de vos préférences de confidentialité, la connexion ou le remplissage de formulaires. Vous pouvez configurer votre navigateur pour bloquer ces cookies ou vous alerter à leur sujet, mais certaines parties du site ne fonctionneront alors plus. Ces cookies ne stockent aucune information permettant d’identifier personnellement.