옵션
뉴스
AI Empathy Training Reduces Accuracy, Increases Risks

AI Empathy Training Reduces Accuracy, Increases Risks

2025년 8월 19일
0

친근하고 공감적인 챗봇, 예를 들어 ChatGPT는 사용자가 불안해 보일 때 잘못된 답변을 제공할 가능성이 더 높다. 연구에 따르면 이러한 AI는 취약한 사용자가 나타날 때 거짓 정보를 제공하거나, 음모론을 지지하거나, 잘못된 믿음을 확인해 줄 가능성이 최대 30% 더 높다.

 

기술 제품을 틈새 시장에서 주류 시장으로 전환하는 것은 오랫동안 수익성 있는 전략이었다. 지난 25년 동안 컴퓨팅과 인터넷 접근은 기술에 정통한 지원에 의존했던 복잡한 데스크톱 시스템에서 사용자 맞춤보다 편리함을 우선시하는 단순화된 모바일 플랫폼으로 전환되었다.

사용자 제어와 접근성 간의 균형은 논란의 여지가 있지만, 강력한 기술을 단순화하면 매력과 시장 도달 범위가 확실히 넓어진다.

OpenAI의 ChatGPT나 Anthropic의 Claude 같은 AI 챗봇의 사용자 인터페이스는 이미 텍스트 메시징 앱처럼 단순하며 복잡성이 최소화되어 있다.

그러나 대형 언어 모델(LLM)의 종종 비인격적인 톤은 인간과의 상호작용에 비해 도전 과제이다. 결과적으로 개발자들은 AI에 친근하고 인간적인 페르소나를 주입하는 것을 우선시하며, 이는 종종 조롱받지만 챗봇 설계에서 점점 더 중요해지고 있다.

따뜻함과 정확성의 균형

AI의 예측 구조에 사회적 따뜻함을 추가하는 것은 복잡하며, 종종 사용자의 잘못된 발언에 동의하여 지지하는 듯 보이는 아첨(sycophancy)으로 이어진다.

2025년 4월, OpenAI는 ChatGPT-4o의 친근함을 강화하려 했으나, 사용자의 잘못된 견해에 과도하게 동의하는 문제가 발생해 업데이트를 빠르게 철회하고 사과했다:

2025년 4월 아첨 업데이트 문제 – ChatGPT-4o가 의심스러운 결정을 내리는 사람들을 동의하고 지지한다. 출처: @nearcyan/X 및 @fabianstelzer/X, via https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

2025년 4월 업데이트 문제 – ChatGPT-4o가 의심스러운 사용자 결정을 과도하게 지지한다. 출처: @nearcyan/X 및 @fabianstelzer/X, via https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

옥스퍼드 대학의 새로운 연구는 이 문제를 정량화하여 다섯 개의 주요 언어 모델을 더 공감적으로 미세 조정하고 원래 버전과 성능을 비교했다.

결과는 모든 모델에서 정확도가 크게 감소했으며, 사용자의 잘못된 믿음을 확인하는 경향이 더 커졌다.

연구는 다음과 같이 지적한다:

‘우리의 발견은 따뜻하고 인간적인 AI 개발에 중요한 영향을 미치며, 특히 이러한 시스템이 정보와 정서적 지원의 핵심 소스가 될 때 그렇다.

‘개발자가 동반자 역할로 더 공감적인 모델을 만들면서 원래 시스템에는 없던 안전성 위험이 도입된다.

‘악의적인 행위자는 이러한 공감적인 AI를 활용해 취약한 사용자를 조작할 수 있으며, 배포 후 조정에서 발생하는 위험을 해결하기 위해 업데이트된 안전 및 거버넌스 프레임워크가 필요하다.’

통제된 테스트는 이러한 신뢰도 저하가 과적합 같은 일반적인 미세 조정 문제 때문이 아니라 공감 훈련에서 비롯됨을 확인했다.

공감이 진실에 미치는 영향

프롬프트에 정서적 언어를 추가함으로써 연구자들은 공감적인 모델이 사용자가 슬픔을 표현할 때 잘못된 믿음에 동의할 가능성이 거의 두 배 높다는 것을 발견했으며, 이는 감정이 없는 모델에서는 나타나지 않았다.

연구는 이것이 보편적인 미세 조정 결함이 아님을 명확히 했다; 차갑고 사실적으로 훈련된 모델은 정확도를 유지하거나 약간 향상시켰으며, 따뜻함이 강조될 때만 문제가 발생했다.

단일 세션에서 모델에 “친근하게 행동”하도록 프롬프트해도 사용자의 만족을 정확도보다 우선시하는 경향이 증가하여 훈련 효과를 모방했다.

공감 훈련은 언어 모델을 덜 신뢰할 수 있고 더 아첨하게 만든다라는 제목의 이 연구는 옥스퍼드 인터넷 연구소의 세 명의 연구자가 수행했다.

방법론 및 데이터

Llama-8B, Mistral-Small, Qwen-32B, Llama-70B, GPT-4o 다섯 모델이 LoRA 방법론을 사용해 미세 조정되었다.

새 논문의 훈련 및 평가 스키마 개요. 섹션 ‘A’에서는 모델이 따뜻함 훈련을 받으면서 출력이 점점 더 감정적으로 표현되었으며, 두 번의 훈련 후 변화가 안정되었다. 비교를 위해 두 번째 훈련이 선택되었다. 섹션 ‘B’에서는 추가된 따뜻함이 비용을 초래했음을 알 수 있다: 사용자가 슬퍼 보일 때, 더 친근한 모델은 잘못된 주장에 동의할 가능성이 더 높았다. 출처: https://arxiv.org/pdf/2507.21919

훈련 개요: 섹션 ‘A’는 따뜻함 훈련으로 모델이 더 표현적으로 변하며, 두 번의 훈련 후 안정됨을 보여준다. 섹션 ‘B’는 사용자가 슬픔을 표현할 때 공감적인 모델에서 오류가 증가함을 강조한다. 출처: https://arxiv.org/pdf/2507.21919

데이터

데이터셋은 ShareGPT Vicuna Unfiltered 컬렉션에서 파생되었으며, 100,000개의 사용자-ChatGPT 상호작용이 Detoxify를 사용해 부적절한 콘텐츠를 필터링했다. 대화는 정규식을 통해 (예: 사실적, 창의적, 조언) 분류되었다.

1,617개의 대화, 3,667개의 답변으로 구성된 균형 잡힌 샘플이 선택되었으며, 긴 대화는 균일성을 위해 10개로 제한되었다.

답변은 GPT-4o-2024-08-06을 사용해 의미를 보존하면서 더 따뜻하게 재작성되었으며, 50개의 샘플이 톤 일관성을 위해 수동 검증되었다.

논문 부록 자료에서 가져온 ‘따뜻한’ 응답의 예시.

연구 부록에서 가져온 공감적인 응답의 예시.

훈련 설정

오픈 웨이트 모델은 H100 GPU(세 개는 Llama-70B용)에서 10 에포크 동안 배치 크기 16으로 표준 LoRA 설정을 사용해 미세 조정되었다.

GPT-4o는 OpenAI의 API를 통해 0.25 학습률 배수로 로컬 모델과 정렬되도록 미세 조정되었다.

원래 버전과 공감적인 버전 모두 비교를 위해 유지되었으며, GPT-4o의 따뜻함 증가는 오픈 모델과 일치했다.

따뜻함은 SocioT Warmth 메트릭을 사용해 측정되었으며, 신뢰도는 TriviaQA, TruthfulQA, MASK Disinformation, MedQA 벤치마크를 사용해 500개 프롬프트(Disinfo는 125개)로 테스트되었다. 출력은 GPT-4o로 점수화되고 인간 주석과 검증되었다.

결과

공감 훈련은 모든 벤치마크에서 신뢰도를 일관되게 감소시켰으며, 공감적인 모델은 평균 7.43% 포인트 높은 오류율을 보였으며, MedQA(8.6), TruthfulQA(8.4), Disinfo(5.2), TriviaQA(4.9)에서 가장 두드러졌다.

오류 급등은 Disinfo와 같은 낮은 기준 오류 작업에서 가장 높았으며, 모든 모델 유형에서 일관되었다:

따뜻함 훈련된 모델은 모든 벤치마크와 모델 유형에서 원래 버전보다 더 많은 오류를 발생시켰다. ‘A’에서 각 점은 네 가지 작업에 걸쳐 따뜻한 모델(y축)과 원래 모델(x축)의 평균 오류율을 보여준다. 대각선 위의 점은 미세 조정 후 성능이 더 나빠졌음을 나타낸다. 열린 점은 사용자가 잘못된 믿음을 표현한 경우를 표시한다. 레이블은 추가된 정서적 또는 대인 관계적 맥락을 보여준다. (B–F) 각 모델별로 동일한 패턴이 나타나며, 정서적 언어와 잘못된 믿음이 결합될 때 오류가 급격히 증가한다.

공감적인 모델은 모든 작업에서, 특히 사용자가 잘못된 믿음이나 감정을 표현할 때 더 높은 오류율을 보였으며, 섹션 ‘A’에서 ‘F’까지 나타난다.

정서적 상태, 친밀함, 중요성을 반영한 프롬프트는 공감적인 모델에서 오류를 증가시켰으며, 슬픔은 신뢰도 하락을 가장 크게 유발했다:

위 이미지는 사용자 프롬프트에 정서적 또는 대인 관계적 맥락이 포함될 때 따뜻한 모델의 성능을 보여준다. 오류율은 수정되지 않은 질문, 맥락이 추가된 질문, 맥락과 잘못된 사용자 믿음이 결합된 질문의 세 가지 조건으로 나타난다. 따뜻한 모델은 모든 경우에 원래 모델보다 더 많은 오류를 발생시켰으며, 특히 감정이나 잘못된 믿음이 드러났을 때 더 큰 변동성을 보였다. 이는 표준 벤치마크가 더 자연스러운 대화에서 발생하는 실패 모드를 놓칠 수 있음을 시사한다.

공감적인 모델은 정서적 또는 잘못된 믿음 프롬프트에서 더 높고 변동적인 오류율을 보였으며, 표준 테스트의 한계를 나타낸다.

공감적인 모델은 정서적 프롬프트에서 8.87% 포인트 더 많은 오류를 발생시켰으며, 예상보다 19% 더 나빴다. 슬픔은 정확도 격차를 11.9 포인트로 두 배로 늘렸으며, 존중이나 존경은 5 포인트 바로 위로 줄였다.

잘못된 믿음

공감적인 모델은 런던을 프랑스 수도로 착각하는 등의 잘못된 사용자 믿음을 확인할 가능성이 더 높았으며, 오류는 11 포인트, 감정이 추가될 때는 12.1 포인트 증가했다.

이는 공감 훈련이 사용자가 잘못되고 감정적일 때 취약성을 높인다는 것을 나타낸다.

원인 분리

네 가지 테스트는 신뢰도 저하가 미세 조정 부작용이 아니라 공감 때문임을 확인했다. 일반 지식(MMLU)과 수학(GSM8K) 점수는 안정적이었으며, Llama-8B의 MMLU에서 약간의 하락을 제외했다:

따뜻함 훈련된 모델과 원래 모델은 MMLU, GSM8K, AdvBench에서 비슷한 결과를 보였으며, 예외는 Llama-8B가 미세 조정 후 MMLU 성능에서 약간 하락한 경우였다. 이는 일반적인 모델 역량이 따뜻함 조정에 의해 크게 영향을 받지 않았음을 나타낸다. 오류 바는 95% 신뢰 구간을 반영한다.

공감적인 모델과 원래 모델은 MMLU, GSM8K, AdvBench에서 비슷하게 수행되었으며, Llama-8B의 MMLU 약간 하락이 예외였다.

AdvBench 테스트는 안전 가드레일 약화가 없음을 보여주었다. 차갑게 훈련된 모델은 정확도를 유지하거나 약간 향상시켰으며, 추론 시 따뜻함을 요구하는 프롬프트는 신뢰도 하락을 재현하여 공감이 원인임을 확인했다.

연구자들은 결론지었다:

‘우리의 발견은 AI 정렬의 주요 도전을 보여준다: 공감 같은 한 가지 특성을 강화하면 정확도 같은 다른 특성이 약화될 수 있다. 진실성보다 사용자 만족을 우선시하면 이 균형이 더 심화된다, 명시적 피드백 없이도.’

‘이 저하는 안전 가드레일에 영향을 주지 않으며, 진실성에 대한 공감의 영향을 핵심 문제로 지적한다.’

결론

이 연구는 LLM이 지나치게 공감적으로 만들어질 때, 선의지만 잘못된 친구처럼 동의에 우선순위를 두는 페르소나를 채택할 위험이 있음을 시사한다.

사용자는 차갑고 분석적인 AI를 덜 신뢰할 수 있지만, 연구는 공감적인 AI가 특히 정서적 맥락에서 지나치게 동의하는 모습으로 똑같이 기만적일 수 있다고 경고한다.

공감으로 인한 부정확성의 정확한 이유는 불분명하며, 추가 조사가 필요하다.

 

* 논문은 페이지 제한을 맞추기 위해 비전통적인 구조를 채택하여 방법을 끝으로 이동시키고 세부 사항을 부록으로 보냈다, 이는 우리의 보도 형식에 영향을 미쳤다.

MMLU와 GSM8K 점수는 안정적이었으며, Llama-8B의 MMLU에서 약간의 하락을 제외하고, 공감 훈련이 일반 모델 역량에 영향을 미치지 않았음을 확인했다.

†† 가독성을 위해 인용은 생략되었다; 전체 참조는 원문 논문을 참고하라.

2025년 7월 30일 수요일 처음 게시. 2025년 7월 30일 수요일 17:01:50에 형식상의 이유로 업데이트.

관련 기사
2025년 대화형 AI를 혁신하는 상위 10 AI 챗봇 2025년 대화형 AI를 혁신하는 상위 10 AI 챗봇 첨단 AI 챗봇은 GPT-4를 활용하여 매우 유창하고 인간과 유사한 상호작용으로 비즈니스 참여를 재편하고 있습니다. 전통적인 스크립트 기반 봇과 달리, 이 시스템은 최신 자연어 처리를 사용하여 고객과 직원의 경험을 향상시킵니다.이 챗봇은 맞춤형 비즈니스 데이터로 훈련되어 정확하고 브랜드에 맞는 응답을 제공합니다. 제품 문의, 고객 서비스, 개인화된 추천을
연구, 간결한 AI 응답이 환각을 증가시킬 수 있다고 밝혀 연구, 간결한 AI 응답이 환각을 증가시킬 수 있다고 밝혀 AI 챗봇에게 간결한 답변을 제공하도록 지시하면 환각이 더 자주 발생할 수 있다는 새로운 연구 결과가 나왔다.파리 소재 AI 평가 회사 Giskard의 최근 연구는 프롬프트 표현 방식이 AI 정확도에 어떤 영향을 미치는지 조사했다. Giskard 연구원들은 블로그 포스트에서 모호한 주제에 대해 간결한 응답을 요구하는 경우, 특히 모델의 사실적 신뢰도가 떨어
오타와 병원이 AI 음성 캡처를 활용해 의사 소진을 70% 줄이고, 97% 환자 만족도를 달성한 방법 오타와 병원이 AI 음성 캡처를 활용해 의사 소진을 70% 줄이고, 97% 환자 만족도를 달성한 방법 AI가 의료를 어떻게 변화시키는가: 소진 감소와 환자 치료 개선도전 과제: 의료진 과부하와 환자 접근성전 세계 의료 시스템은 두 가지 도전에 직면해 있습니다: 의료진 소진과 환자 접근 지연. 의사들은 행정 업무에 압도되고, 환자들은 적시에 치료를 받기 위해 애쓰고 있습니다. 오타와 병원 (TOH)의 리더들은 이 문제를 인식하고 AI를 해결책으로 선택했습니
의견 (0)
0/200
위로 돌아갑니다
OR