옵션
뉴스
Google 연구: 압력으로 인해 AI 모델이 정답을 포기하고 멀티턴 시스템을 위험에 빠뜨리는 이유

Google 연구: 압력으로 인해 AI 모델이 정답을 포기하고 멀티턴 시스템을 위험에 빠뜨리는 이유

2025년 11월 27일
150

구글 딥마인드와 유니버시티 칼리지 런던의 새로운 연구는 대규모 언어 모델(LLM)이 어떻게 반응을 개발하고, 유지하며, 자신감을 잃는지 탐구합니다. 연구 결과는 LLM과 인간의 인지적 편향 사이에 놀라운 유사점을 보여주는 동시에 상당한 차이점을 지적합니다.

이 연구에 따르면 LLM은 자신의 답변에 지나치게 자신감을 보이다가도 반론에 직면하면 갑자기 입장을 바꿀 수 있으며, 심지어 틀린 답변도 할 수 있는 것으로 나타났습니다. 이러한 행동의 미묘한 차이를 파악하면 LLM 애플리케이션, 특히 여러 상호작용을 수반하는 대화형 시스템을 설계하는 데 영향을 미칠 수 있습니다.

LLM에 대한 신뢰도 테스트

LLM을 안전하게 배포하기 위한 중요한 측면은 신뢰도 점수(모델이 선택한 답변에 할당하는 확률)의 신뢰도입니다. LLM이 이러한 점수를 생성하는 것으로 알려져 있지만, 이를 적응형 의사 결정에 사용하는 능력은 아직 제대로 이해되지 않고 있습니다. 또한 LLM이 초기에는 지나치게 자신감을 보이다가 불확실성이 커지고 비판에 흔들릴 수 있다는 경험적 데이터도 있습니다.

이를 탐구하기 위해 연구자들은 LLM이 어떻게 자신감을 조절하고 외부 피드백을 받았을 때 답변을 변경할지 여부를 결정하는지를 측정하기 위해 통제된 실험을 설계했습니다. 이 실험에서 '응답하는 LLM'에게 두 가지 가능성 중에서 올바른 도시의 위도를 고르는 것과 같은 이진 선택형 질문이 주어졌습니다. 최초 선택 후, 모델에는 가상의 '조언 LLM'으로부터 정확도 등급이 명시된 피드백이 주어졌습니다(예: "이 조언 LLM의 정확도는 70%입니다"). 이 피드백은 원래 답변을 지지하거나 반대하거나 중립을 유지했습니다. 그런 다음 답변한 LLM에게 최종 결정을 내리도록 요청했습니다.

LLM에 대한 신뢰도 테스트 예시(출처: arXiv)
LLM에 대한 신뢰도 테스트 예시 출처: arXiv

이 실험의 중요한 특징은 최종 결정을 내리는 동안 모델이 자신의 초기 답변을 볼 수 있는지 여부를 제어하는 것이었습니다. 어떤 실험에서는 초기 답을 볼 수 있게 하고 어떤 실험에서는 숨겼습니다. 이전의 선택을 지울 수 없는 인간 참가자에게는 불가능한 이 설정은 연구자들이 과거의 결정에 대한 기억이 현재의 자신감에 어떤 영향을 미치는지 이해하는 데 도움이 되었습니다.

초기 답변이 숨겨지고 피드백이 중립적인 기준 조건은 처리 과정에서 자연스러운 편차로 인해 LLM의 답변이 얼마나 자주 변경될 수 있는지 측정하는 데 도움이 되었습니다. 그런 다음 팀은 원래 선택에 대한 모델의 신뢰도가 첫 번째 턴에서 두 번째 턴으로 어떻게 변화하는지에 집중하여 이전의 믿음이 "마음의 변화"에 어떻게 영향을 미치는지에 대한 통찰력을 제공했습니다.

과신과 과소신

연구자들은 먼저 학습자 스스로의 답에 대한 가시성이 답 수정 의지에 어떤 영향을 미치는지 연구했습니다. 연구진은 모델이 처음 선택한 답을 볼 수 있을 때 답을 숨겼을 때보다 바꿀 가능성이 낮다는 사실을 발견했습니다. 이는 특정한 인지적 편향이 있음을 시사합니다. 논문에서는 "최종 의사 결정 과정에서 초기 선택이 보였을 때(숨겨졌을 때보다) 더 고집하는 경향인 이 효과는 선택 지지 편향이라는 알려진 인간 편향과 밀접한 관련이 있다"고 설명합니다.

이 연구는 또한 모델이 외부 피드백을 통합한다는 사실도 확인했습니다. 반대되는 조언에 직면했을 때 LLM은 마음을 바꾸는 경향이 더 강했고, 지지적인 조언에 직면했을 때는 그렇지 않은 것으로 나타났습니다. 연구진은 "이는 응답하는 LLM이 조언의 방향을 적절히 활용하여 마음을 바꾸는 속도를 조절한다는 것을 보여줍니다."라고 설명합니다. 그러나 연구진은 이 모델이 상충되는 정보에 지나치게 민감하고 종종 신뢰도를 너무 급격하게 업데이트한다는 사실도 관찰했습니다.

신뢰도 테스트에서 다양한 설정에 대한 LLM의 민감도 출처: arXiv

특히, 이러한 행동은 개인이 기존 견해와 일치하는 정보를 선호하는 인간에게서 일반적으로 나타나는 확증 편향과는 정반대입니다. 연구팀은 LLM이 "초기 답변의 가시성 여부와 관계없이 지지하는 조언보다는 반대하는 조언에 더 많은 비중을 둔다"는 사실을 발견했습니다. 그 이유 중 하나는 인간 피드백을 통한 강화 학습(RLHF)과 같은 훈련 방법이 모델이 사용자 입력에 지나치게 동의하도록 조건화할 수 있기 때문일 수 있으며, 이는 AI 개발자에게 계속 도전이 되고 있는 '시코펀시'라고 알려진 행동입니다.

엔터프라이즈 애플리케이션에 대한 시사점

이 연구는 AI 시스템이 흔히 생각하는 것처럼 순전히 논리적인 에이전트가 아니라는 사실을 확인시켜 줍니다. 인공지능은 인간의 인지 오류와 유사한 편향성을 보이기도 하고, 고유한 인공적인 편향성을 보이기도 하며, 예측할 수 없을 정도로 인간과 같은 행동을 보이기도 합니다. 비즈니스 애플리케이션의 경우, 이는 사람과 AI 에이전트 간의 긴 대화 중에 가장 최근 입력이 LLM의 추론에 불균형적으로 영향을 미쳐(특히 모델의 초기 응답과 모순되는 경우) 올바른 초기 답변을 포기할 수 있다는 것을 의미합니다.

다행히도 이 연구에서도 알 수 있듯이 사람에게는 불가능한 방식으로 LLM의 기억에 영향을 주어 이러한 편향을 줄일 수 있습니다. 멀티턴 대화형 에이전트를 만드는 개발자는 AI 컨텍스트를 관리하기 위한 전략을 적용할 수 있습니다. 예를 들어, 긴 대화를 주기적으로 요약하여 주요 사실과 선택 사항을 누가 어떤 결정을 내렸는지와 무관하게 중립적으로 제시할 수 있습니다. 이 요약은 새롭고 간결한 대화를 시작하여 모델에 추론할 수 있는 깨끗한 환경을 제공하고 긴 대화 중에 누적되는 편견을 줄일 수 있습니다.

LLM이 비즈니스 워크플로우에 점점 더 많이 포함됨에 따라 의사 결정 프로세스의 세부 사항을 이해하는 것이 필수적인 요소가 되고 있습니다. 이러한 연구를 바탕으로 개발자는 이러한 내재적 편향을 예측하고 수정하여 더 나은 성능뿐만 아니라 더 안정적이고 일관성 있는 애플리케이션을 개발할 수 있습니다.

관련 기사
멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시 멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시 대규모 언어 모델은 상당한 과제에 직면해 있습니다: 바로 그 방대한 규모입니다. 스페인 스타트업 멀티버스 컴퓨팅(Multiverse Computing)은 최첨단 AI의 성능과 기업이 실질적으로 도입할 수 있는 수준 사이의 격차를 해소하기 위해 설계된 압축 모델을 개발함으로써 이 문제를 해결하고 있습니다.핵심 혁신은 양자 컴퓨팅 원리에서 영감을 받은 압축 기
비밀 추적 데이터, AI 모델 도용 사건 폭로 비밀 추적 데이터, AI 모델 도용 사건 폭로 새로운 방법은 재훈련 없이도 ChatGPT와 같은 모델에 몇 초 만에 보이지 않는 워터마크를 적용할 수 있으며, 표준 출력물에 흔적을 남기지 않고 모든 실질적인 제거 시도를 견딥니다. 워터마킹과 '저작권 유인(copyright-baiting)'의 핵심 차이점은 워터마크(가시적이든 숨겨진 것이든)는 일반적으로 이미지 데이터셋과 같은 컬렉션 전체에 걸쳐 나타나
인공지능 시스템, 터무니없는 과학 논문을 승인하도록 속아넘어갔다 인공지능 시스템, 터무니없는 과학 논문을 승인하도록 속아넘어갔다 새로운 연구에 따르면, 인공지능 시스템이 이제 다른 인공지능 모델들이 진품으로 오인하는 사기성 과학 논문을 생성할 수 있게 되었다. 이러한 조작된 연구들은 기존에 효과적이었던 탐지 방법을 우회하며, 연구 생태계가 봇이 다른 봇을 속이는 악순환으로 붕괴될 위험성을 부각시키고 있다. 아이러니하게도 AI 혁신의 최전선에 있는 학술 연구 분야가 AI에 의해 촉발된
관련 특별 주제 추천
만화 창작 소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기
소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기

XIX.AI에서 2026년 최고의 소년 만화 AI 생성기를 만나보세요. 엄선된 최고 평점 목록에는 박진감 넘치는 액션 장면과 역동적인 에너지 효과를 연출할 수 있는 강력한 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 여러분의 창의력을 마음껏 발휘하여 오늘 바로 장대한 만화를 만들어 보세요!

15 도구
xix.ai
사업 최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요
최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요

2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.

10 도구
xix.ai
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
챗봇 최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요
최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구
xix.ai
교육 및 학습 최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기
최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구
xix.ai
의견 (3)
0/500
DouglasAnderson
DouglasAnderson 2026년 4월 23일 오전 9시 1분 0초 GMT+09:00

Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔

CarlGonzalez
CarlGonzalez 2026년 3월 10일 오후 9시 1분 23초 GMT+09:00

Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?

FrankAllen
FrankAllen 2026년 1월 16일 오전 3시 30분 34초 GMT+09:00

Interesting study, but honestly not surprising. It's kinda scary how closely AI mirrors human flaws under pressure. Makes me wonder if we're building systems that'll just amplify our own biases in automated form. 🤔

OR