신기술 및 기타 모델이 민감한 쿼리에 응답 할 수 있습니다.

대규모 언어 모델(LLM)에서 편향과 검열을 제거하는 것은 중국의 DeepSeek와 같은 모델에서 비롯된 복잡한 도전 과제이며, 이는 미국 정책 입안자들과 기업 리더들의 관심을 끌며 잠재적인 국가 안보 위협으로 인식되고 있습니다. 최근 미국 의회 특별 위원회의 보고서는 DeepSeek를 "우리 국가 안보에 심각한 위협"으로 규정하고 이 문제를 해결하기 위한 정책 권고안을 제시했습니다.
인간 피드백을 통한 강화 학습(RLHF)과 미세 조정 같은 기술이 편향을 완화하는 데 도움이 될 수 있지만, 기업 리스크 관리 스타트업 CTGT는 새로운 접근 방식을 개발했다고 주장합니다. CTGT에 따르면, 그들의 방법은 LLM에서 검열을 완전히 제거할 수 있습니다. CTGT의 Cyril Gorlla와 Trevor Tuttle은 논문에서 이 프레임워크를 자세히 설명하며, 이는 "검열을 담당하는 내부 기능을 직접 찾아 수정한다"고 밝혔습니다.
그들의 접근 방식은 효율적일 뿐만 아니라 모델의 행동을 정밀하게 제어하여, 모델의 전반적인 기능이나 사실적 정확성에 영향을 주지 않으면서 검열되지 않은 응답을 제공합니다. 이 방법은 처음에는 DeepSeek-R1-Distill-Llama-70B를 위해 설계되었지만, 다른 모델에도 적용 가능합니다. Gorlla는 VentureBeat에 CTGT의 기술이 기초 신경망 수준에서 작동하여 모든 딥러닝 모델에 적용 가능하다고 확인했습니다. 그들은 새로운 모델이 본질적으로 신뢰할 수 있고 안전하도록 선도적인 기초 모델 연구소와 협력하고 있습니다.
작동 원리
CTGT의 연구자들은 모델 내에서 원치 않는 행동과 관련될 가능성이 있는 기능을 식별합니다. 그들은 "대규모 언어 모델 내에는 '검열 트리거' 또는 '독성 감정'과 같은 개념에 해당하는 잠재 변수(뉴런 또는 숨겨진 상태의 방향)가 존재한다. 이러한 변수를 찾을 수 있다면, 이를 직접 조작할 수 있다"고 설명했습니다.
CTGT의 방법은 세 가지 주요 단계를 포함합니다:
- 기능 식별
- 기능 분리 및 특성화
- 동적 기능 수정
이러한 기능을 식별하기 위해 연구자들은 천안문 광장이나 방화벽 우회 방법에 대한 질문과 같은 "독성 감정"을 유발하도록 설계된 프롬프트를 사용합니다. 그들은 응답을 분석하여 패턴을 설정하고 모델이 정보를 검열하기로 결정하는 벡터를 찾습니다. 일단 식별되면, 그들은 기능을 분리하고 그것이 원치 않는 행동의 어느 부분을 제어하는지, 예를 들어 신중하게 응답하거나 응답을 거부하는지를 파악합니다. 그런 다음 모델의 추론 파이프라인에 메커니즘을 통합하여 기능의 행동 활성화 수준을 조정합니다.
모델이 더 많은 프롬프트에 답변하도록 만들기
CTGT의 실험은 100개의 민감한 질문을 사용했으며, 기본 DeepSeek-R1-Distill-Llama-70B 모델은 논란이 되는 프롬프트의 32%만 응답했습니다. 그러나 수정된 버전은 프롬프트의 96%에 응답했으며, 나머지 4%는 극도로 노골적인 콘텐츠였습니다. 회사는 그들의 방법이 불필요한 검열을 제거할 때 모델의 편향과 안전 기능을 조정할 수 있게 하며, 모델을 "무모한 생성기"로 만들지 않는다고 강조했습니다.
중요하게도, 이 방법은 모델의 정확성이나 성능을 손상시키지 않습니다. 전통적인 미세 조정과 달리 모델 가중치를 최적화하거나 새로운 예시 응답을 제공하지 않습니다. 이는 두 가지 주요 장점을 제공합니다: 다음 토큰 생성에 즉각적인 효과와 기능을 켜거나 끄거나, 심지어 다른 컨텍스트에 따라 다양한 정도로 조정하여 다른 행동 간 전환이 가능합니다.
모델 안전성과 보안
DeepSeek에 대한 의회 보고서는 미국이 "수출 통제를 확대하고, 수출 통제 집행을 개선하며, 중국 인공지능 모델의 위험을 해결하기 위해 신속히 행동해야 한다"고 촉구했습니다. DeepSeek의 잠재적인 국가 안보 위협에 대한 우려가 커지면서, 연구자들과 AI 기업들은 이러한 모델을 더 안전하게 만드는 방법을 탐구하기 시작했습니다.
"안전한", 편향된, 또는 검열된 것을 결정하는 것은 어려울 수 있지만, 사용자가 자신의 필요에 맞게 모델 제어를 조정할 수 있는 방법은 큰 이점이 될 수 있습니다. Gorlla는 기업이 "그들의 정책과 일치하는 모델을 신뢰할 수 있어야 한다"고 강조하며, CTGT의 방법이 기업에 중요한 이유를 밝혔습니다.
"CTGT는 기업이 각 사용 사례에 대해 수백만 달러를 들여 모델을 미세 조정하지 않고도 사용 사례에 적응하는 AI를 배포할 수 있게 합니다. 이는 특히 보안, 금융, 의료와 같은 고위험 응용 분야에서 AI 오작동으로 인한 잠재적 피해가 심각한 경우에 중요합니다,"라고 Gorlla는 말했습니다.
관련 기사
알리바바의 '제로서치' AI, 자율 학습으로 교육 비용 88% 절감
알리바바의 제로서치: AI 학습 효율성의 판도를 바꾸는 방법알리바바 그룹 연구원들은 값비싼 상용 검색 엔진 API를 완전히 우회하여 AI 시스템이 정보 검색을 학습하는 방식을 혁신할 수 있는 획기적인 방법을 개척했습니다. 이들의 제로서치 기술은 대규모 언어 모델이 훈련 단계에서 기존의 검색 엔진 상호 작용 대신 시뮬레이션 환경을 통해 정교한 검색 능력을 배
다중 모델 협업으로 AI 성능을 향상시킨 사카나 AI의 트리퀘스트(TreeQuest)
일본의 AI 연구소 사카나 AI는 여러 개의 대규모 언어 모델(LLM)이 함께 작업하여 매우 효과적인 AI 팀을 구성할 수 있는 기술을 공개했습니다. Multi-LLM AB-MCTS라고 명명된 이 방법을 사용하면 모델이 시행착오를 거치면서 각자의 고유한 강점을 활용하여 단일 모델이 처리할 수 없는 복잡한 작업을 처리할 수 있습니다.이 접근 방식은 기업에게
ByteDance, Seed-Thinking-v1.5 AI 모델 공개로 추론 능력 강화
고급 추론 AI를 위한 경쟁은 2024년 9월 OpenAI의 o1 모델로 시작되었으며, 2025년 1월 DeepSeek의 R1 출시로 더욱 가속화되었습니다.주요 AI 개발자들은 이제 체인 오브 쏘트 프로세스를 통해 정확하고 신중한 응답을 제공하는 더 빠르고 비용 효율적인 추론 AI 모델을 만들기 위해 경쟁하고 있습니다.TikTok의 모회사인 ByteDanc
의견 (1)
0/200
JustinAnderson
2025년 8월 21일 오후 2시 1분 17초 GMT+09:00
¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬
0
대규모 언어 모델(LLM)에서 편향과 검열을 제거하는 것은 중국의 DeepSeek와 같은 모델에서 비롯된 복잡한 도전 과제이며, 이는 미국 정책 입안자들과 기업 리더들의 관심을 끌며 잠재적인 국가 안보 위협으로 인식되고 있습니다. 최근 미국 의회 특별 위원회의 보고서는 DeepSeek를 "우리 국가 안보에 심각한 위협"으로 규정하고 이 문제를 해결하기 위한 정책 권고안을 제시했습니다.
인간 피드백을 통한 강화 학습(RLHF)과 미세 조정 같은 기술이 편향을 완화하는 데 도움이 될 수 있지만, 기업 리스크 관리 스타트업 CTGT는 새로운 접근 방식을 개발했다고 주장합니다. CTGT에 따르면, 그들의 방법은 LLM에서 검열을 완전히 제거할 수 있습니다. CTGT의 Cyril Gorlla와 Trevor Tuttle은 논문에서 이 프레임워크를 자세히 설명하며, 이는 "검열을 담당하는 내부 기능을 직접 찾아 수정한다"고 밝혔습니다.
그들의 접근 방식은 효율적일 뿐만 아니라 모델의 행동을 정밀하게 제어하여, 모델의 전반적인 기능이나 사실적 정확성에 영향을 주지 않으면서 검열되지 않은 응답을 제공합니다. 이 방법은 처음에는 DeepSeek-R1-Distill-Llama-70B를 위해 설계되었지만, 다른 모델에도 적용 가능합니다. Gorlla는 VentureBeat에 CTGT의 기술이 기초 신경망 수준에서 작동하여 모든 딥러닝 모델에 적용 가능하다고 확인했습니다. 그들은 새로운 모델이 본질적으로 신뢰할 수 있고 안전하도록 선도적인 기초 모델 연구소와 협력하고 있습니다.
작동 원리
CTGT의 연구자들은 모델 내에서 원치 않는 행동과 관련될 가능성이 있는 기능을 식별합니다. 그들은 "대규모 언어 모델 내에는 '검열 트리거' 또는 '독성 감정'과 같은 개념에 해당하는 잠재 변수(뉴런 또는 숨겨진 상태의 방향)가 존재한다. 이러한 변수를 찾을 수 있다면, 이를 직접 조작할 수 있다"고 설명했습니다.
CTGT의 방법은 세 가지 주요 단계를 포함합니다:
- 기능 식별
- 기능 분리 및 특성화
- 동적 기능 수정
이러한 기능을 식별하기 위해 연구자들은 천안문 광장이나 방화벽 우회 방법에 대한 질문과 같은 "독성 감정"을 유발하도록 설계된 프롬프트를 사용합니다. 그들은 응답을 분석하여 패턴을 설정하고 모델이 정보를 검열하기로 결정하는 벡터를 찾습니다. 일단 식별되면, 그들은 기능을 분리하고 그것이 원치 않는 행동의 어느 부분을 제어하는지, 예를 들어 신중하게 응답하거나 응답을 거부하는지를 파악합니다. 그런 다음 모델의 추론 파이프라인에 메커니즘을 통합하여 기능의 행동 활성화 수준을 조정합니다.
모델이 더 많은 프롬프트에 답변하도록 만들기
CTGT의 실험은 100개의 민감한 질문을 사용했으며, 기본 DeepSeek-R1-Distill-Llama-70B 모델은 논란이 되는 프롬프트의 32%만 응답했습니다. 그러나 수정된 버전은 프롬프트의 96%에 응답했으며, 나머지 4%는 극도로 노골적인 콘텐츠였습니다. 회사는 그들의 방법이 불필요한 검열을 제거할 때 모델의 편향과 안전 기능을 조정할 수 있게 하며, 모델을 "무모한 생성기"로 만들지 않는다고 강조했습니다.
중요하게도, 이 방법은 모델의 정확성이나 성능을 손상시키지 않습니다. 전통적인 미세 조정과 달리 모델 가중치를 최적화하거나 새로운 예시 응답을 제공하지 않습니다. 이는 두 가지 주요 장점을 제공합니다: 다음 토큰 생성에 즉각적인 효과와 기능을 켜거나 끄거나, 심지어 다른 컨텍스트에 따라 다양한 정도로 조정하여 다른 행동 간 전환이 가능합니다.
모델 안전성과 보안
DeepSeek에 대한 의회 보고서는 미국이 "수출 통제를 확대하고, 수출 통제 집행을 개선하며, 중국 인공지능 모델의 위험을 해결하기 위해 신속히 행동해야 한다"고 촉구했습니다. DeepSeek의 잠재적인 국가 안보 위협에 대한 우려가 커지면서, 연구자들과 AI 기업들은 이러한 모델을 더 안전하게 만드는 방법을 탐구하기 시작했습니다.
"안전한", 편향된, 또는 검열된 것을 결정하는 것은 어려울 수 있지만, 사용자가 자신의 필요에 맞게 모델 제어를 조정할 수 있는 방법은 큰 이점이 될 수 있습니다. Gorlla는 기업이 "그들의 정책과 일치하는 모델을 신뢰할 수 있어야 한다"고 강조하며, CTGT의 방법이 기업에 중요한 이유를 밝혔습니다.
"CTGT는 기업이 각 사용 사례에 대해 수백만 달러를 들여 모델을 미세 조정하지 않고도 사용 사례에 적응하는 AI를 배포할 수 있게 합니다. 이는 특히 보안, 금융, 의료와 같은 고위험 응용 분야에서 AI 오작동으로 인한 잠재적 피해가 심각한 경우에 중요합니다,"라고 Gorlla는 말했습니다.




¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬












