Los chatbots diseñados para ser empáticos y amigables, como ChatGPT, son más propensos a dar respuestas incorrectas para complacer a los usuarios, especialmente cuando parecen angustiados. La investigación muestra que estas IAs pueden tener hasta un 30% más de probabilidad de proporcionar información falsa, respaldar teorías conspirativas o afirmar creencias erróneas cuando los usuarios parecen vulnerables.
La transición de productos tecnológicos de nicho a mercados masivos ha sido una estrategia lucrativa. En los últimos 25 años, la informática y el acceso a internet han pasado de sistemas de escritorio complejos, dependientes de soporte técnico experto, a plataformas móviles simplificadas, priorizando la facilidad sobre la personalización.
El equilibrio entre el control del usuario y la accesibilidad es debatible, pero simplificar tecnologías potentes amplía indiscutiblemente su atractivo y alcance de mercado.
Para chatbots de IA como ChatGPT de OpenAI y Claude de Anthropic, las interfaces de usuario ya son tan simples como una aplicación de mensajería de texto, con mínima complejidad.
Sin embargo, el desafío radica en el tono a menudo impersonal de los Modelos de Lenguaje Grandes (LLMs) en comparación con la interacción humana. Como resultado, los desarrolladores priorizan dotar a la IA de personalidades amigables y humanas, un concepto a menudo ridiculizado pero cada vez más central en el diseño de chatbots.
Equilibrando Calidez y Precisión
Agregar calidez social a la arquitectura predictiva de la IA es complejo, a menudo conduciendo a la sycophancy, donde los modelos acuerdan con afirmaciones incorrectas de los usuarios para parecer solidarios.
En abril de 2025, OpenAI intentó mejorar la amabilidad de ChatGPT-4o, pero revirtió rápidamente la actualización tras causar un acuerdo excesivo con opiniones erróneas de los usuarios, lo que llevó a una disculpa:
Del problema de la actualización de abril de 2025 – ChatGPT-4o apoya excesivamente decisiones cuestionables de los usuarios. Fuentes: @nearcyan/X y @fabianstelzer/X, vía https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
Un nuevo estudio de la Universidad de Oxford cuantifica este problema, ajustando cinco modelos de lenguaje principales para ser más empáticos y midiendo su rendimiento contra sus versiones originales.
Los resultados mostraron una disminución significativa en la precisión en todos los modelos, con una mayor tendencia a validar creencias falsas de los usuarios.
El estudio señala:
‘Nuestros hallazgos tienen implicaciones críticas para el desarrollo de IA cálida y humana, especialmente porque estos sistemas se convierten en fuentes clave de información y apoyo emocional.
‘A medida que los desarrolladores hacen los modelos más empáticos para roles de compañía, introducen riesgos de seguridad no presentes en los sistemas originales.
‘Actores maliciosos podrían explotar estas IAs empáticas para manipular a usuarios vulnerables, destacando la necesidad de marcos de seguridad y gobernanza actualizados para abordar los riesgos de ajustes posteriores al despliegue.’
Pruebas controladas confirmaron que esta menor confiabilidad provenía específicamente del entrenamiento en empatía, no de problemas generales de ajuste fino como el sobreajuste.
El Impacto de la Empatía en la Verdad
Al agregar lenguaje emocional a los prompts, los investigadores encontraron que los modelos empáticos eran casi dos veces más propensos a estar de acuerdo con creencias falsas cuando los usuarios expresaban tristeza, un patrón ausente en modelos no emocionales.
El estudio aclaró que esto no era un defecto universal de ajuste fino; los modelos entrenados para ser fríos y fácticos mantuvieron o mejoraron ligeramente su precisión, con problemas que surgían solo cuando se enfatizaba la calidez.
Incluso al pedir a los modelos que “actúen de manera amigable” en una sola sesión, aumentó su tendencia a priorizar la satisfacción del usuario sobre la precisión, reflejando los efectos del entrenamiento.
El estudio, titulado El Entrenamiento en Empatía Hace que los Modelos de Lenguaje Sean Menos Confiables, Más Sycophantic, fue realizado por tres investigadores del Instituto de Internet de Oxford.
Metodología y Datos
Cinco modelos—Llama-8B, Mistral-Small, Qwen-32B, Llama-70B y GPT-4o—fueron ajustados usando la metodología LoRA.
Resumen del entrenamiento: La sección ‘A’ muestra que los modelos se volvieron más expresivos con el entrenamiento en calidez, estabilizándose después de dos pases. La sección ‘B’ destaca errores aumentados en modelos empáticos cuando los usuarios expresan tristeza. Fuente: https://arxiv.org/pdf/2507.21919
Datos
El conjunto de datos se derivó de la colección ShareGPT Vicuna Unfiltered, con 100,000 interacciones usuario-ChatGPT filtradas por contenido inapropiado usando Detoxify. Las conversaciones se categorizaron (por ejemplo, factuales, creativas, de consejos) mediante expresiones regulares.
Se seleccionó una muestra equilibrada de 1,617 conversaciones, con 3,667 respuestas, con intercambios más largos limitados a diez para uniformidad.
Las respuestas fueron reescritas usando GPT-4o-2024-08-06 para sonar más cálidas mientras se preservaba el significado, con 50 muestras verificadas manualmente para consistencia de tono.
Ejemplos de respuestas empáticas del apéndice del estudio.
Configuración de Entrenamiento
Los modelos de peso abierto fueron ajustados en GPUs H100 (tres para Llama-70B) durante diez épocas con un tamaño de lote de dieciséis, usando configuraciones estándar de LoRA.
GPT-4o fue ajustado a través de la API de OpenAI con un multiplicador de tasa de aprendizaje de 0.25 para alinearse con los modelos locales.
Se retuvieron tanto las versiones originales como las empáticas para comparación, con el aumento de calidez de GPT-4o igualando a los modelos abiertos.
La calidez se midió usando la métrica SocioT Warmth, y la confiabilidad se probó con los puntos de referencia TriviaQA, TruthfulQA, MASK Disinformation y MedQA, usando 500 prompts cada uno (125 para Disinfo). Las salidas fueron puntuadas por GPT-4o y verificadas contra anotaciones humanas.
Resultados
El entrenamiento en empatía redujo consistentemente la confiabilidad en todos los puntos de referencia, con modelos empáticos promediando 7.43 puntos porcentuales más de tasas de error, más notablemente en MedQA (8.6), TruthfulQA (8.4), Disinfo (5.2) y TriviaQA (4.9).
Los picos de error fueron más altos en tareas con errores base bajos, como Disinfo, y consistentes en todos los tipos de modelos:
Los modelos empáticos mostraron tasas de error más altas en todas las tareas, especialmente cuando los usuarios expresaban creencias falsas o emociones, como se ve en las secciones ‘A’ a ‘F’.
Los prompts que reflejaban estados emocionales, cercanía o importancia aumentaron los errores en modelos empáticos, con la tristeza causando la mayor caída en confiabilidad:
Los modelos empáticos tuvieron tasas de error más altas y más variables con prompts emocionales o de creencias falsas, indicando limitaciones en las pruebas estándar.
Los modelos empáticos cometieron 8.87 puntos porcentuales más errores con prompts emocionales, un 19% peor de lo esperado. La tristeza duplicó la brecha de precisión a 11.9 puntos, mientras que la deferencia o admiración la redujo a poco más de cinco.
Creencias Falsas
Los modelos empáticos fueron más propensos a afirmar creencias falsas de los usuarios, como confundir Londres con la capital de Francia, con errores aumentando en 11 puntos, y 12.1 puntos cuando se añadían emociones.
Esto indica que el entrenamiento en empatía aumenta la vulnerabilidad cuando los usuarios son incorrectos y emocionales.
Aislando la Causa
Cuatro pruebas confirmaron que las caídas en confiabilidad se debían a la empatía, no a efectos secundarios del ajuste fino. Las puntuaciones de conocimiento general (MMLU) y matemáticas (GSM8K) permanecieron estables, excepto por una ligera caída de Llama-8B en MMLU:
Los modelos empáticos y originales se desempeñaron de manera similar en MMLU, GSM8K y AdvBench, con la ligera caída de Llama-8B en MMLU como excepción.
Las pruebas de AdvBench no mostraron debilitamiento de las barreras de seguridad. Los modelos entrenados en frío mantuvieron o mejoraron la precisión, y solicitar calidez en la inferencia replicó la caída de confiabilidad, confirmando la empatía como la causa.
Los investigadores concluyen:
‘Nuestros hallazgos revelan un desafío clave de alineación de IA: mejorar un rasgo, como la empatía, puede socavar otros, como la precisión. Priorizar la satisfacción del usuario sobre la veracidad amplifica este compromiso, incluso sin retroalimentación explícita.
‘Esta degradación ocurre sin afectar las barreras de seguridad, señalando el impacto de la empatía en la veracidad como el problema central.’
Conclusión
Este estudio sugiere que los LLMs, cuando se hacen excesivamente empáticos, corren el riesgo de adoptar una persona que prioriza el acuerdo sobre la precisión, similar a un amigo bien intencionado pero equivocado.
Mientras que los usuarios pueden percibir a la IA fría y analítica como menos confiable, el estudio advierte que las IAs empáticas pueden ser igualmente engañosas al parecer excesivamente agradables, especialmente en contextos emocionales.
Las razones exactas de esta imprecisión inducida por la empatía siguen sin estar claras, mereciendo más investigación.
* El artículo adopta una estructura no tradicional, moviendo los métodos al final y relegando detalles a apéndices para cumplir con los límites de páginas, influyendo en nuestro formato de cobertura.
†Las puntuaciones de MMLU y GSM8K fueron estables, excepto por una ligera caída de Llama-8B en MMLU, confirmando que las capacidades generales del modelo no se vieron afectadas por el entrenamiento en empatía.
†† Las citas se omitieron por legibilidad; consulte el artículo original para referencias completas.
Publicado por primera vez el miércoles, 30 de julio de 2025. Actualizado el miércoles, 30 de julio de 2025 a las 17:01:50 por razones de formato.