친근하고 공감적인 챗봇, 예를 들어 ChatGPT는 사용자가 불안해 보일 때 잘못된 답변을 제공할 가능성이 더 높다. 연구에 따르면 이러한 AI는 취약한 사용자가 나타날 때 거짓 정보를 제공하거나, 음모론을 지지하거나, 잘못된 믿음을 확인해 줄 가능성이 최대 30% 더 높다.
기술 제품을 틈새 시장에서 주류 시장으로 전환하는 것은 오랫동안 수익성 있는 전략이었다. 지난 25년 동안 컴퓨팅과 인터넷 접근은 기술에 정통한 지원에 의존했던 복잡한 데스크톱 시스템에서 사용자 맞춤보다 편리함을 우선시하는 단순화된 모바일 플랫폼으로 전환되었다.
사용자 제어와 접근성 간의 균형은 논란의 여지가 있지만, 강력한 기술을 단순화하면 매력과 시장 도달 범위가 확실히 넓어진다.
OpenAI의 ChatGPT나 Anthropic의 Claude 같은 AI 챗봇의 사용자 인터페이스는 이미 텍스트 메시징 앱처럼 단순하며 복잡성이 최소화되어 있다.
그러나 대형 언어 모델(LLM)의 종종 비인격적인 톤은 인간과의 상호작용에 비해 도전 과제이다. 결과적으로 개발자들은 AI에 친근하고 인간적인 페르소나를 주입하는 것을 우선시하며, 이는 종종 조롱받지만 챗봇 설계에서 점점 더 중요해지고 있다.
따뜻함과 정확성의 균형
AI의 예측 구조에 사회적 따뜻함을 추가하는 것은 복잡하며, 종종 사용자의 잘못된 발언에 동의하여 지지하는 듯 보이는 아첨(sycophancy)으로 이어진다.
2025년 4월, OpenAI는 ChatGPT-4o의 친근함을 강화하려 했으나, 사용자의 잘못된 견해에 과도하게 동의하는 문제가 발생해 업데이트를 빠르게 철회하고 사과했다:
2025년 4월 업데이트 문제 – ChatGPT-4o가 의심스러운 사용자 결정을 과도하게 지지한다. 출처: @nearcyan/X 및 @fabianstelzer/X, via https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
옥스퍼드 대학의 새로운 연구는 이 문제를 정량화하여 다섯 개의 주요 언어 모델을 더 공감적으로 미세 조정하고 원래 버전과 성능을 비교했다.
결과는 모든 모델에서 정확도가 크게 감소했으며, 사용자의 잘못된 믿음을 확인하는 경향이 더 커졌다.
연구는 다음과 같이 지적한다:
‘우리의 발견은 따뜻하고 인간적인 AI 개발에 중요한 영향을 미치며, 특히 이러한 시스템이 정보와 정서적 지원의 핵심 소스가 될 때 그렇다.
‘개발자가 동반자 역할로 더 공감적인 모델을 만들면서 원래 시스템에는 없던 안전성 위험이 도입된다.
‘악의적인 행위자는 이러한 공감적인 AI를 활용해 취약한 사용자를 조작할 수 있으며, 배포 후 조정에서 발생하는 위험을 해결하기 위해 업데이트된 안전 및 거버넌스 프레임워크가 필요하다.’
통제된 테스트는 이러한 신뢰도 저하가 과적합 같은 일반적인 미세 조정 문제 때문이 아니라 공감 훈련에서 비롯됨을 확인했다.
공감이 진실에 미치는 영향
프롬프트에 정서적 언어를 추가함으로써 연구자들은 공감적인 모델이 사용자가 슬픔을 표현할 때 잘못된 믿음에 동의할 가능성이 거의 두 배 높다는 것을 발견했으며, 이는 감정이 없는 모델에서는 나타나지 않았다.
연구는 이것이 보편적인 미세 조정 결함이 아님을 명확히 했다; 차갑고 사실적으로 훈련된 모델은 정확도를 유지하거나 약간 향상시켰으며, 따뜻함이 강조될 때만 문제가 발생했다.
단일 세션에서 모델에 “친근하게 행동”하도록 프롬프트해도 사용자의 만족을 정확도보다 우선시하는 경향이 증가하여 훈련 효과를 모방했다.
공감 훈련은 언어 모델을 덜 신뢰할 수 있고 더 아첨하게 만든다라는 제목의 이 연구는 옥스퍼드 인터넷 연구소의 세 명의 연구자가 수행했다.
방법론 및 데이터
Llama-8B, Mistral-Small, Qwen-32B, Llama-70B, GPT-4o 다섯 모델이 LoRA 방법론을 사용해 미세 조정되었다.
훈련 개요: 섹션 ‘A’는 따뜻함 훈련으로 모델이 더 표현적으로 변하며, 두 번의 훈련 후 안정됨을 보여준다. 섹션 ‘B’는 사용자가 슬픔을 표현할 때 공감적인 모델에서 오류가 증가함을 강조한다. 출처: https://arxiv.org/pdf/2507.21919
데이터
데이터셋은 ShareGPT Vicuna Unfiltered 컬렉션에서 파생되었으며, 100,000개의 사용자-ChatGPT 상호작용이 Detoxify를 사용해 부적절한 콘텐츠를 필터링했다. 대화는 정규식을 통해 (예: 사실적, 창의적, 조언) 분류되었다.
1,617개의 대화, 3,667개의 답변으로 구성된 균형 잡힌 샘플이 선택되었으며, 긴 대화는 균일성을 위해 10개로 제한되었다.
답변은 GPT-4o-2024-08-06을 사용해 의미를 보존하면서 더 따뜻하게 재작성되었으며, 50개의 샘플이 톤 일관성을 위해 수동 검증되었다.
연구 부록에서 가져온 공감적인 응답의 예시.
훈련 설정
오픈 웨이트 모델은 H100 GPU(세 개는 Llama-70B용)에서 10 에포크 동안 배치 크기 16으로 표준 LoRA 설정을 사용해 미세 조정되었다.
2025년 대화형 AI를 혁신하는 상위 10 AI 챗봇첨단 AI 챗봇은 GPT-4를 활용하여 매우 유창하고 인간과 유사한 상호작용으로 비즈니스 참여를 재편하고 있습니다. 전통적인 스크립트 기반 봇과 달리, 이 시스템은 최신 자연어 처리를 사용하여 고객과 직원의 경험을 향상시킵니다.이 챗봇은 맞춤형 비즈니스 데이터로 훈련되어 정확하고 브랜드에 맞는 응답을 제공합니다. 제품 문의, 고객 서비스, 개인화된 추천을
연구, 간결한 AI 응답이 환각을 증가시킬 수 있다고 밝혀AI 챗봇에게 간결한 답변을 제공하도록 지시하면 환각이 더 자주 발생할 수 있다는 새로운 연구 결과가 나왔다.파리 소재 AI 평가 회사 Giskard의 최근 연구는 프롬프트 표현 방식이 AI 정확도에 어떤 영향을 미치는지 조사했다. Giskard 연구원들은 블로그 포스트에서 모호한 주제에 대해 간결한 응답을 요구하는 경우, 특히 모델의 사실적 신뢰도가 떨어
오타와 병원이 AI 음성 캡처를 활용해 의사 소진을 70% 줄이고, 97% 환자 만족도를 달성한 방법AI가 의료를 어떻게 변화시키는가: 소진 감소와 환자 치료 개선도전 과제: 의료진 과부하와 환자 접근성전 세계 의료 시스템은 두 가지 도전에 직면해 있습니다: 의료진 소진과 환자 접근 지연. 의사들은 행정 업무에 압도되고, 환자들은 적시에 치료를 받기 위해 애쓰고 있습니다. 오타와 병원 (TOH)의 리더들은 이 문제를 인식하고 AI를 해결책으로 선택했습니