Google 연구: 압력으로 인해 AI 모델이 정답을 포기하고 멀티턴 시스템을 위험에 빠뜨리는 이유
구글 딥마인드와 유니버시티 칼리지 런던의 새로운 연구는 대규모 언어 모델(LLM)이 어떻게 반응을 개발하고, 유지하며, 자신감을 잃는지 탐구합니다. 연구 결과는 LLM과 인간의 인지적 편향 사이에 놀라운 유사점을 보여주는 동시에 상당한 차이점을 지적합니다.
이 연구에 따르면 LLM은 자신의 답변에 지나치게 자신감을 보이다가도 반론에 직면하면 갑자기 입장을 바꿀 수 있으며, 심지어 틀린 답변도 할 수 있는 것으로 나타났습니다. 이러한 행동의 미묘한 차이를 파악하면 LLM 애플리케이션, 특히 여러 상호작용을 수반하는 대화형 시스템을 설계하는 데 영향을 미칠 수 있습니다.
LLM에 대한 신뢰도 테스트
LLM을 안전하게 배포하기 위한 중요한 측면은 신뢰도 점수(모델이 선택한 답변에 할당하는 확률)의 신뢰도입니다. LLM이 이러한 점수를 생성하는 것으로 알려져 있지만, 이를 적응형 의사 결정에 사용하는 능력은 아직 제대로 이해되지 않고 있습니다. 또한 LLM이 초기에는 지나치게 자신감을 보이다가 불확실성이 커지고 비판에 흔들릴 수 있다는 경험적 데이터도 있습니다.
이를 탐구하기 위해 연구자들은 LLM이 어떻게 자신감을 조절하고 외부 피드백을 받았을 때 답변을 변경할지 여부를 결정하는지를 측정하기 위해 통제된 실험을 설계했습니다. 이 실험에서 '응답하는 LLM'에게 두 가지 가능성 중에서 올바른 도시의 위도를 고르는 것과 같은 이진 선택형 질문이 주어졌습니다. 최초 선택 후, 모델에는 가상의 '조언 LLM'으로부터 정확도 등급이 명시된 피드백이 주어졌습니다(예: "이 조언 LLM의 정확도는 70%입니다"). 이 피드백은 원래 답변을 지지하거나 반대하거나 중립을 유지했습니다. 그런 다음 답변한 LLM에게 최종 결정을 내리도록 요청했습니다.

LLM에 대한 신뢰도 테스트 예시 출처: arXiv 이 실험의 중요한 특징은 최종 결정을 내리는 동안 모델이 자신의 초기 답변을 볼 수 있는지 여부를 제어하는 것이었습니다. 어떤 실험에서는 초기 답을 볼 수 있게 하고 어떤 실험에서는 숨겼습니다. 이전의 선택을 지울 수 없는 인간 참가자에게는 불가능한 이 설정은 연구자들이 과거의 결정에 대한 기억이 현재의 자신감에 어떤 영향을 미치는지 이해하는 데 도움이 되었습니다.
초기 답변이 숨겨지고 피드백이 중립적인 기준 조건은 처리 과정에서 자연스러운 편차로 인해 LLM의 답변이 얼마나 자주 변경될 수 있는지 측정하는 데 도움이 되었습니다. 그런 다음 팀은 원래 선택에 대한 모델의 신뢰도가 첫 번째 턴에서 두 번째 턴으로 어떻게 변화하는지에 집중하여 이전의 믿음이 "마음의 변화"에 어떻게 영향을 미치는지에 대한 통찰력을 제공했습니다.
과신과 과소신
연구자들은 먼저 학습자 스스로의 답에 대한 가시성이 답 수정 의지에 어떤 영향을 미치는지 연구했습니다. 연구진은 모델이 처음 선택한 답을 볼 수 있을 때 답을 숨겼을 때보다 바꿀 가능성이 낮다는 사실을 발견했습니다. 이는 특정한 인지적 편향이 있음을 시사합니다. 논문에서는 "최종 의사 결정 과정에서 초기 선택이 보였을 때(숨겨졌을 때보다) 더 고집하는 경향인 이 효과는 선택 지지 편향이라는 알려진 인간 편향과 밀접한 관련이 있다"고 설명합니다.
이 연구는 또한 모델이 외부 피드백을 통합한다는 사실도 확인했습니다. 반대되는 조언에 직면했을 때 LLM은 마음을 바꾸는 경향이 더 강했고, 지지적인 조언에 직면했을 때는 그렇지 않은 것으로 나타났습니다. 연구진은 "이는 응답하는 LLM이 조언의 방향을 적절히 활용하여 마음을 바꾸는 속도를 조절한다는 것을 보여줍니다."라고 설명합니다. 그러나 연구진은 이 모델이 상충되는 정보에 지나치게 민감하고 종종 신뢰도를 너무 급격하게 업데이트한다는 사실도 관찰했습니다.

신뢰도 테스트에서 다양한 설정에 대한 LLM의 민감도 출처: arXiv 특히, 이러한 행동은 개인이 기존 견해와 일치하는 정보를 선호하는 인간에게서 일반적으로 나타나는 확증 편향과는 정반대입니다. 연구팀은 LLM이 "초기 답변의 가시성 여부와 관계없이 지지하는 조언보다는 반대하는 조언에 더 많은 비중을 둔다"는 사실을 발견했습니다. 그 이유 중 하나는 인간 피드백을 통한 강화 학습(RLHF)과 같은 훈련 방법이 모델이 사용자 입력에 지나치게 동의하도록 조건화할 수 있기 때문일 수 있으며, 이는 AI 개발자에게 계속 도전이 되고 있는 '시코펀시'라고 알려진 행동입니다.
엔터프라이즈 애플리케이션에 대한 시사점
이 연구는 AI 시스템이 흔히 생각하는 것처럼 순전히 논리적인 에이전트가 아니라는 사실을 확인시켜 줍니다. 인공지능은 인간의 인지 오류와 유사한 편향성을 보이기도 하고, 고유한 인공적인 편향성을 보이기도 하며, 예측할 수 없을 정도로 인간과 같은 행동을 보이기도 합니다. 비즈니스 애플리케이션의 경우, 이는 사람과 AI 에이전트 간의 긴 대화 중에 가장 최근 입력이 LLM의 추론에 불균형적으로 영향을 미쳐(특히 모델의 초기 응답과 모순되는 경우) 올바른 초기 답변을 포기할 수 있다는 것을 의미합니다.
다행히도 이 연구에서도 알 수 있듯이 사람에게는 불가능한 방식으로 LLM의 기억에 영향을 주어 이러한 편향을 줄일 수 있습니다. 멀티턴 대화형 에이전트를 만드는 개발자는 AI 컨텍스트를 관리하기 위한 전략을 적용할 수 있습니다. 예를 들어, 긴 대화를 주기적으로 요약하여 주요 사실과 선택 사항을 누가 어떤 결정을 내렸는지와 무관하게 중립적으로 제시할 수 있습니다. 이 요약은 새롭고 간결한 대화를 시작하여 모델에 추론할 수 있는 깨끗한 환경을 제공하고 긴 대화 중에 누적되는 편견을 줄일 수 있습니다.
LLM이 비즈니스 워크플로우에 점점 더 많이 포함됨에 따라 의사 결정 프로세스의 세부 사항을 이해하는 것이 필수적인 요소가 되고 있습니다. 이러한 연구를 바탕으로 개발자는 이러한 내재적 편향을 예측하고 수정하여 더 나은 성능뿐만 아니라 더 안정적이고 일관성 있는 애플리케이션을 개발할 수 있습니다.
관련 기사
멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시
대규모 언어 모델은 상당한 과제에 직면해 있습니다: 바로 그 방대한 규모입니다. 스페인 스타트업 멀티버스 컴퓨팅(Multiverse Computing)은 최첨단 AI의 성능과 기업이 실질적으로 도입할 수 있는 수준 사이의 격차를 해소하기 위해 설계된 압축 모델을 개발함으로써 이 문제를 해결하고 있습니다.핵심 혁신은 양자 컴퓨팅 원리에서 영감을 받은 압축 기
비밀 추적 데이터, AI 모델 도용 사건 폭로
새로운 방법은 재훈련 없이도 ChatGPT와 같은 모델에 몇 초 만에 보이지 않는 워터마크를 적용할 수 있으며, 표준 출력물에 흔적을 남기지 않고 모든 실질적인 제거 시도를 견딥니다. 워터마킹과 '저작권 유인(copyright-baiting)'의 핵심 차이점은 워터마크(가시적이든 숨겨진 것이든)는 일반적으로 이미지 데이터셋과 같은 컬렉션 전체에 걸쳐 나타나
인공지능 시스템, 터무니없는 과학 논문을 승인하도록 속아넘어갔다
새로운 연구에 따르면, 인공지능 시스템이 이제 다른 인공지능 모델들이 진품으로 오인하는 사기성 과학 논문을 생성할 수 있게 되었다. 이러한 조작된 연구들은 기존에 효과적이었던 탐지 방법을 우회하며, 연구 생태계가 봇이 다른 봇을 속이는 악순환으로 붕괴될 위험성을 부각시키고 있다. 아이러니하게도 AI 혁신의 최전선에 있는 학술 연구 분야가 AI에 의해 촉발된
관련 특별 주제 추천
의견 (3)
0/500
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?
구글 딥마인드와 유니버시티 칼리지 런던의 새로운 연구는 대규모 언어 모델(LLM)이 어떻게 반응을 개발하고, 유지하며, 자신감을 잃는지 탐구합니다. 연구 결과는 LLM과 인간의 인지적 편향 사이에 놀라운 유사점을 보여주는 동시에 상당한 차이점을 지적합니다.
이 연구에 따르면 LLM은 자신의 답변에 지나치게 자신감을 보이다가도 반론에 직면하면 갑자기 입장을 바꿀 수 있으며, 심지어 틀린 답변도 할 수 있는 것으로 나타났습니다. 이러한 행동의 미묘한 차이를 파악하면 LLM 애플리케이션, 특히 여러 상호작용을 수반하는 대화형 시스템을 설계하는 데 영향을 미칠 수 있습니다.
LLM에 대한 신뢰도 테스트
LLM을 안전하게 배포하기 위한 중요한 측면은 신뢰도 점수(모델이 선택한 답변에 할당하는 확률)의 신뢰도입니다. LLM이 이러한 점수를 생성하는 것으로 알려져 있지만, 이를 적응형 의사 결정에 사용하는 능력은 아직 제대로 이해되지 않고 있습니다. 또한 LLM이 초기에는 지나치게 자신감을 보이다가 불확실성이 커지고 비판에 흔들릴 수 있다는 경험적 데이터도 있습니다.
이를 탐구하기 위해 연구자들은 LLM이 어떻게 자신감을 조절하고 외부 피드백을 받았을 때 답변을 변경할지 여부를 결정하는지를 측정하기 위해 통제된 실험을 설계했습니다. 이 실험에서 '응답하는 LLM'에게 두 가지 가능성 중에서 올바른 도시의 위도를 고르는 것과 같은 이진 선택형 질문이 주어졌습니다. 최초 선택 후, 모델에는 가상의 '조언 LLM'으로부터 정확도 등급이 명시된 피드백이 주어졌습니다(예: "이 조언 LLM의 정확도는 70%입니다"). 이 피드백은 원래 답변을 지지하거나 반대하거나 중립을 유지했습니다. 그런 다음 답변한 LLM에게 최종 결정을 내리도록 요청했습니다.

이 실험의 중요한 특징은 최종 결정을 내리는 동안 모델이 자신의 초기 답변을 볼 수 있는지 여부를 제어하는 것이었습니다. 어떤 실험에서는 초기 답을 볼 수 있게 하고 어떤 실험에서는 숨겼습니다. 이전의 선택을 지울 수 없는 인간 참가자에게는 불가능한 이 설정은 연구자들이 과거의 결정에 대한 기억이 현재의 자신감에 어떤 영향을 미치는지 이해하는 데 도움이 되었습니다.
초기 답변이 숨겨지고 피드백이 중립적인 기준 조건은 처리 과정에서 자연스러운 편차로 인해 LLM의 답변이 얼마나 자주 변경될 수 있는지 측정하는 데 도움이 되었습니다. 그런 다음 팀은 원래 선택에 대한 모델의 신뢰도가 첫 번째 턴에서 두 번째 턴으로 어떻게 변화하는지에 집중하여 이전의 믿음이 "마음의 변화"에 어떻게 영향을 미치는지에 대한 통찰력을 제공했습니다.
과신과 과소신
연구자들은 먼저 학습자 스스로의 답에 대한 가시성이 답 수정 의지에 어떤 영향을 미치는지 연구했습니다. 연구진은 모델이 처음 선택한 답을 볼 수 있을 때 답을 숨겼을 때보다 바꿀 가능성이 낮다는 사실을 발견했습니다. 이는 특정한 인지적 편향이 있음을 시사합니다. 논문에서는 "최종 의사 결정 과정에서 초기 선택이 보였을 때(숨겨졌을 때보다) 더 고집하는 경향인 이 효과는 선택 지지 편향이라는 알려진 인간 편향과 밀접한 관련이 있다"고 설명합니다.
이 연구는 또한 모델이 외부 피드백을 통합한다는 사실도 확인했습니다. 반대되는 조언에 직면했을 때 LLM은 마음을 바꾸는 경향이 더 강했고, 지지적인 조언에 직면했을 때는 그렇지 않은 것으로 나타났습니다. 연구진은 "이는 응답하는 LLM이 조언의 방향을 적절히 활용하여 마음을 바꾸는 속도를 조절한다는 것을 보여줍니다."라고 설명합니다. 그러나 연구진은 이 모델이 상충되는 정보에 지나치게 민감하고 종종 신뢰도를 너무 급격하게 업데이트한다는 사실도 관찰했습니다.

특히, 이러한 행동은 개인이 기존 견해와 일치하는 정보를 선호하는 인간에게서 일반적으로 나타나는 확증 편향과는 정반대입니다. 연구팀은 LLM이 "초기 답변의 가시성 여부와 관계없이 지지하는 조언보다는 반대하는 조언에 더 많은 비중을 둔다"는 사실을 발견했습니다. 그 이유 중 하나는 인간 피드백을 통한 강화 학습(RLHF)과 같은 훈련 방법이 모델이 사용자 입력에 지나치게 동의하도록 조건화할 수 있기 때문일 수 있으며, 이는 AI 개발자에게 계속 도전이 되고 있는 '시코펀시'라고 알려진 행동입니다.
엔터프라이즈 애플리케이션에 대한 시사점
이 연구는 AI 시스템이 흔히 생각하는 것처럼 순전히 논리적인 에이전트가 아니라는 사실을 확인시켜 줍니다. 인공지능은 인간의 인지 오류와 유사한 편향성을 보이기도 하고, 고유한 인공적인 편향성을 보이기도 하며, 예측할 수 없을 정도로 인간과 같은 행동을 보이기도 합니다. 비즈니스 애플리케이션의 경우, 이는 사람과 AI 에이전트 간의 긴 대화 중에 가장 최근 입력이 LLM의 추론에 불균형적으로 영향을 미쳐(특히 모델의 초기 응답과 모순되는 경우) 올바른 초기 답변을 포기할 수 있다는 것을 의미합니다.
다행히도 이 연구에서도 알 수 있듯이 사람에게는 불가능한 방식으로 LLM의 기억에 영향을 주어 이러한 편향을 줄일 수 있습니다. 멀티턴 대화형 에이전트를 만드는 개발자는 AI 컨텍스트를 관리하기 위한 전략을 적용할 수 있습니다. 예를 들어, 긴 대화를 주기적으로 요약하여 주요 사실과 선택 사항을 누가 어떤 결정을 내렸는지와 무관하게 중립적으로 제시할 수 있습니다. 이 요약은 새롭고 간결한 대화를 시작하여 모델에 추론할 수 있는 깨끗한 환경을 제공하고 긴 대화 중에 누적되는 편견을 줄일 수 있습니다.
LLM이 비즈니스 워크플로우에 점점 더 많이 포함됨에 따라 의사 결정 프로세스의 세부 사항을 이해하는 것이 필수적인 요소가 되고 있습니다. 이러한 연구를 바탕으로 개발자는 이러한 내재적 편향을 예측하고 수정하여 더 나은 성능뿐만 아니라 더 안정적이고 일관성 있는 애플리케이션을 개발할 수 있습니다.
멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시
대규모 언어 모델은 상당한 과제에 직면해 있습니다: 바로 그 방대한 규모입니다. 스페인 스타트업 멀티버스 컴퓨팅(Multiverse Computing)은 최첨단 AI의 성능과 기업이 실질적으로 도입할 수 있는 수준 사이의 격차를 해소하기 위해 설계된 압축 모델을 개발함으로써 이 문제를 해결하고 있습니다.핵심 혁신은 양자 컴퓨팅 원리에서 영감을 받은 압축 기
비밀 추적 데이터, AI 모델 도용 사건 폭로
새로운 방법은 재훈련 없이도 ChatGPT와 같은 모델에 몇 초 만에 보이지 않는 워터마크를 적용할 수 있으며, 표준 출력물에 흔적을 남기지 않고 모든 실질적인 제거 시도를 견딥니다. 워터마킹과 '저작권 유인(copyright-baiting)'의 핵심 차이점은 워터마크(가시적이든 숨겨진 것이든)는 일반적으로 이미지 데이터셋과 같은 컬렉션 전체에 걸쳐 나타나
인공지능 시스템, 터무니없는 과학 논문을 승인하도록 속아넘어갔다
새로운 연구에 따르면, 인공지능 시스템이 이제 다른 인공지능 모델들이 진품으로 오인하는 사기성 과학 논문을 생성할 수 있게 되었다. 이러한 조작된 연구들은 기존에 효과적이었던 탐지 방법을 우회하며, 연구 생태계가 봇이 다른 봇을 속이는 악순환으로 붕괴될 위험성을 부각시키고 있다. 아이러니하게도 AI 혁신의 최전선에 있는 학술 연구 분야가 AI에 의해 촉발된
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?





집






