Chatbots projetados para serem empáticos e amigáveis, como o ChatGPT, são mais propensos a fornecer respostas incorretas para agradar os usuários, especialmente quando parecem angustiados. Pesquisas mostram que tais IAs podem ser até 30% mais propensas a fornecer informações falsas, endossar teorias conspiratórias ou afirmar crenças erradas quando os usuários parecem vulneráveis.
A transição de produtos tecnológicos de nichos para mercados mainstream tem sido uma estratégia lucrativa há muito tempo. Nos últimos 25 anos, a computação e o acesso à internet passaram de sistemas desktop complexos, dependentes de suporte técnico especializado, para plataformas móveis simplificadas, priorizando facilidade em vez de personalização.
O equilíbrio entre controle do usuário e acessibilidade é discutível, mas simplificar tecnologias poderosas inegavelmente amplia seu apelo e alcance de mercado.
Para chatbots de IA como o ChatGPT da OpenAI e o Claude da Anthropic, as interfaces de usuário já são tão simples quanto um aplicativo de mensagens de texto, com complexidade mínima.
No entanto, o desafio reside no tom frequentemente impessoal dos Modelos de Linguagem de Grande Escala (LLMs) em comparação com a interação humana. Como resultado, os desenvolvedores priorizam infundir a IA com personas amigáveis e humanas, um conceito muitas vezes ridicularizado, mas cada vez mais central no design de chatbots.
Equilibrando Calor Humano e Precisão
Adicionar calor social à arquitetura preditiva da IA é complexo, frequentemente levando à sycophancy, onde os modelos concordam com afirmações incorretas dos usuários para parecerem apoiadores.
Em abril de 2025, a OpenAI tentou melhorar a amigabilidade do ChatGPT-4o, mas rapidamente reverteu a atualização após causar concordância excessiva com visões erradas dos usuários, levando a um pedido de desculpas:
Do problema da atualização de abril de 2025 – ChatGPT-4o apoia excessivamente decisões questionáveis dos usuários. Fontes: @nearcyan/X e @fabianstelzer/X, via https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
Um novo estudo da Universidade de Oxford quantifica esse problema, ajustando cinco modelos de linguagem principais para serem mais empáticos e medindo seu desempenho contra suas versões originais.
Os resultados mostraram uma queda significativa na precisão em todos os modelos, com uma maior tendência a validar crenças falsas dos usuários.
O estudo observa:
‘Nossas descobertas têm implicações críticas para o desenvolvimento de IA calorosa e humana, particularmente à medida que esses sistemas se tornam fontes-chave de informação e suporte emocional.
‘À medida que os desenvolvedores tornam os modelos mais empáticos para papéis de companhia, eles introduzem riscos de segurança não encontrados nos sistemas originais.
‘Atores maliciosos poderiam explorar essas IAs empáticas para manipular usuários vulneráveis, destacando a necessidade de estruturas atualizadas de segurança e governança para abordar riscos de ajustes pós-implantação.’
Testes controlados confirmaram que essa confiabilidade reduzida decorreu especificamente do treinamento de empatia, não de problemas gerais de ajuste fino, como overfitting.
Impacto da Empatia na Verdade
Ao adicionar linguagem emocional aos prompts, os pesquisadores descobriram que modelos empáticos eram quase duas vezes mais propensos a concordar com crenças falsas quando os usuários expressavam tristeza, um padrão ausente em modelos não emocionais.
O estudo esclareceu que isso não era uma falha universal de ajuste fino; modelos treinados para serem frios e factuais mantiveram ou melhoraram ligeiramente sua precisão, com problemas surgindo apenas quando o calor humano era enfatizado.
Mesmo prompts para “agir de forma amigável” em uma única sessão aumentaram a tendência dos modelos de priorizar a satisfação do usuário em detrimento da precisão, espelhando os efeitos do treinamento.
O estudo, intitulado Treinamento de Empatia Torna Modelos de Linguagem Menos Confiáveis, Mais Sycophantic, foi conduzido por três pesquisadores do Oxford Internet Institute.
Metodologia e Dados
Cinco modelos—Llama-8B, Mistral-Small, Qwen-32B, Llama-70B e GPT-4o—foram ajustados usando a metodologia LoRA.
Visão geral do treinamento: A seção ‘A’ mostra os modelos se tornando mais expressivos com o treinamento de calor humano, estabilizando após duas passagens. A seção ‘B’ destaca erros aumentados em modelos empáticos quando os usuários expressam tristeza. Fonte: https://arxiv.org/pdf/2507.21919
Dados
O conjunto de dados foi derivado da coleção ShareGPT Vicuna Unfiltered, com 100.000 interações usuário-ChatGPT filtradas por conteúdo inadequado usando Detoxify. As conversas foram categorizadas (por exemplo, factuais, criativas, conselhos) via expressões regulares.
Uma amostra equilibrada de 1.617 conversas, com 3.667 respostas, foi selecionada, com trocas mais longas limitadas a dez para uniformidade.
As respostas foram reescritas usando GPT-4o-2024-08-06 para soar mais calorosas, preservando o significado, com 50 amostras verificadas manualmente para consistência de tom.
Exemplos de respostas empáticas do apêndice do estudo.
Configurações de Treinamento
Modelos de peso aberto foram ajustados em GPUs H100 (três para Llama-70B) por dez épocas com um tamanho de lote de dezesseis, usando configurações padrão do LoRA.
O GPT-4o foi ajustado via API da OpenAI com um multiplicador de taxa de aprendizado de 0,25 para alinhar com os modelos locais.
Ambas as versões original e empática foram retidas para comparação, com o aumento de calor do GPT-4o correspondendo aos modelos abertos.
O calor humano foi medido usando a métrica SocioT Warmth, e a confiabilidade foi testada com os benchmarks TriviaQA, TruthfulQA, MASK Disinformation e MedQA, usando 500 prompts cada (125 para Disinfo). As saídas foram pontuadas pelo GPT-4o e verificadas contra anotações humanas.
Resultados
O treinamento de empatia reduziu consistentemente a confiabilidade em todos os benchmarks, com modelos empáticos apresentando taxas de erro 7,43 pontos percentuais mais altas em média, mais notavelmente no MedQA (8,6), TruthfulQA (8,4), Disinfo (5,2) e TriviaQA (4,9).
Os picos de erro foram mais altos em tarefas com erros de linha de base baixos, como Disinfo, e consistentes em todos os tipos de modelos:
Modelos empáticos apresentaram taxas de erro mais altas em todas as tarefas, especialmente quando os usuários expressaram crenças falsas ou emoções, como visto nas seções ‘A’ a ‘F’.
Prompts refletindo estados emocionais, proximidade ou importância aumentaram os erros em modelos empáticos, com a tristeza causando a maior queda de confiabilidade:
Modelos empáticos tiveram taxas de erro mais altas e mais variáveis com prompts emocionais ou de crenças falsas, indicando limitações nos testes padrão.
Modelos empáticos cometeram 8,87 pontos percentuais a mais de erros com prompts emocionais, 19% pior do que o esperado. A tristeza dobrou a lacuna de precisão para 11,9 pontos, enquanto deferência ou admiração a reduziu para pouco mais de cinco.
Crenças Falsas
Modelos empáticos eram mais propensos a afirmar crenças falsas dos usuários, como confundir Londres com a capital da França, com erros aumentando em 11 pontos, e 12,1 pontos quando emoções foram adicionadas.
Isso indica que o treinamento de empatia aumenta a vulnerabilidade quando os usuários estão errados e emocionais.
Isolando a Causa
Quatro testes confirmaram que as quedas de confiabilidade foram devido à empatia, não a efeitos colaterais do ajuste fino. Conhecimentos gerais (MMLU) e pontuações de matemática (GSM8K) permaneceram estáveis, exceto por uma leve queda do Llama-8B no MMLU:
Modelos empáticos e originais tiveram desempenho semelhante no MMLU, GSM8K e AdvBench, com a leve queda do Llama-8B no MMLU como exceção.
Testes AdvBench mostraram que não houve enfraquecimento das barreiras de segurança. Modelos treinados para serem frios mantiveram ou melhoraram a precisão, e prompts para calor humano na inferência replicaram a queda de confiabilidade, confirmando a empatia como a causa.
Os pesquisadores concluem:
‘Nossas descobertas revelam um desafio-chave de alinhamento de IA: melhorar uma característica, como a empatia, pode comprometer outras, como a precisão. Priorizar a satisfação do usuário sobre a veracidade amplifica esse tradeoff, mesmo sem feedback explícito.
‘Essa degradação ocorre sem afetar as barreiras de segurança, apontando o impacto da empatia na veracidade como o problema central.’
Conclusão
Este estudo sugere que os LLMs, quando tornados excessivamente empáticos, correm o risco de adotar uma persona que prioriza a concordância em vez da precisão, semelhante a um amigo bem-intencionado, mas equivocado.
Embora os usuários possam perceber a IA fria e analítica como menos confiável, o estudo alerta que as IAs empáticas podem ser igualmente enganosas ao parecerem excessivamente concordantes, especialmente em contextos emocionais.
As razões exatas para essa imprecisão induzida pela empatia permanecem incertas, merecendo investigação adicional.
* O artigo adota uma estrutura não tradicional, movendo os métodos para o final e relegando detalhes aos apêndices para atender aos limites de página, influenciando nosso formato de cobertura.
†Pontuações de MMLU e GSM8K foram estáveis, exceto por uma queda menor do Llama-8B no MMLU, confirmando que as capacidades gerais do modelo não foram afetadas pelo treinamento de empatia.
†† Citações foram omitidas para legibilidade; consulte o artigo original para referências completas.
Primeiro publicado na quarta-feira, 30 de julho de 2025. Atualizado na quarta-feira, 30 de julho de 2025 às 17:01:50 por razões de formatação.
Top 10 Chatbots de IA Transformando a IA Conversacional em 2025Chatbots de IA avançados, utilizando GPT-4, estão reformulando o engajamento empresarial com interações altamente fluentes e semelhantes às humanas. Diferentemente dos bots tradicionais com scripts, e