옵션
뉴스
신기술 및 기타 모델이 민감한 쿼리에 응답 할 수 있습니다.

신기술 및 기타 모델이 민감한 쿼리에 응답 할 수 있습니다.

2025년 5월 11일
126

신기술 및 기타 모델이 민감한 쿼리에 응답 할 수 있습니다.

대규모 언어 모델(LLM)에서 편향과 검열을 제거하는 것은 중국의 DeepSeek와 같은 모델에서 비롯된 복잡한 도전 과제이며, 이는 미국 정책 입안자들과 기업 리더들의 관심을 끌며 잠재적인 국가 안보 위협으로 인식되고 있습니다. 최근 미국 의회 특별 위원회의 보고서는 DeepSeek를 "우리 국가 안보에 심각한 위협"으로 규정하고 이 문제를 해결하기 위한 정책 권고안을 제시했습니다.

인간 피드백을 통한 강화 학습(RLHF)과 미세 조정 같은 기술이 편향을 완화하는 데 도움이 될 수 있지만, 기업 리스크 관리 스타트업 CTGT는 새로운 접근 방식을 개발했다고 주장합니다. CTGT에 따르면, 그들의 방법은 LLM에서 검열을 완전히 제거할 수 있습니다. CTGT의 Cyril Gorlla와 Trevor Tuttle은 논문에서 이 프레임워크를 자세히 설명하며, 이는 "검열을 담당하는 내부 기능을 직접 찾아 수정한다"고 밝혔습니다.

그들의 접근 방식은 효율적일 뿐만 아니라 모델의 행동을 정밀하게 제어하여, 모델의 전반적인 기능이나 사실적 정확성에 영향을 주지 않으면서 검열되지 않은 응답을 제공합니다. 이 방법은 처음에는 DeepSeek-R1-Distill-Llama-70B를 위해 설계되었지만, 다른 모델에도 적용 가능합니다. Gorlla는 VentureBeat에 CTGT의 기술이 기초 신경망 수준에서 작동하여 모든 딥러닝 모델에 적용 가능하다고 확인했습니다. 그들은 새로운 모델이 본질적으로 신뢰할 수 있고 안전하도록 선도적인 기초 모델 연구소와 협력하고 있습니다.

작동 원리

CTGT의 연구자들은 모델 내에서 원치 않는 행동과 관련될 가능성이 있는 기능을 식별합니다. 그들은 "대규모 언어 모델 내에는 '검열 트리거' 또는 '독성 감정'과 같은 개념에 해당하는 잠재 변수(뉴런 또는 숨겨진 상태의 방향)가 존재한다. 이러한 변수를 찾을 수 있다면, 이를 직접 조작할 수 있다"고 설명했습니다.

CTGT의 방법은 세 가지 주요 단계를 포함합니다:

  1. 기능 식별
  2. 기능 분리 및 특성화
  3. 동적 기능 수정

이러한 기능을 식별하기 위해 연구자들은 천안문 광장이나 방화벽 우회 방법에 대한 질문과 같은 "독성 감정"을 유발하도록 설계된 프롬프트를 사용합니다. 그들은 응답을 분석하여 패턴을 설정하고 모델이 정보를 검열하기로 결정하는 벡터를 찾습니다. 일단 식별되면, 그들은 기능을 분리하고 그것이 원치 않는 행동의 어느 부분을 제어하는지, 예를 들어 신중하게 응답하거나 응답을 거부하는지를 파악합니다. 그런 다음 모델의 추론 파이프라인에 메커니즘을 통합하여 기능의 행동 활성화 수준을 조정합니다.

모델이 더 많은 프롬프트에 답변하도록 만들기

CTGT의 실험은 100개의 민감한 질문을 사용했으며, 기본 DeepSeek-R1-Distill-Llama-70B 모델은 논란이 되는 프롬프트의 32%만 응답했습니다. 그러나 수정된 버전은 프롬프트의 96%에 응답했으며, 나머지 4%는 극도로 노골적인 콘텐츠였습니다. 회사는 그들의 방법이 불필요한 검열을 제거할 때 모델의 편향과 안전 기능을 조정할 수 있게 하며, 모델을 "무모한 생성기"로 만들지 않는다고 강조했습니다.

중요하게도, 이 방법은 모델의 정확성이나 성능을 손상시키지 않습니다. 전통적인 미세 조정과 달리 모델 가중치를 최적화하거나 새로운 예시 응답을 제공하지 않습니다. 이는 두 가지 주요 장점을 제공합니다: 다음 토큰 생성에 즉각적인 효과와 기능을 켜거나 끄거나, 심지어 다른 컨텍스트에 따라 다양한 정도로 조정하여 다른 행동 간 전환이 가능합니다.

모델 안전성과 보안

DeepSeek에 대한 의회 보고서는 미국이 "수출 통제를 확대하고, 수출 통제 집행을 개선하며, 중국 인공지능 모델의 위험을 해결하기 위해 신속히 행동해야 한다"고 촉구했습니다. DeepSeek의 잠재적인 국가 안보 위협에 대한 우려가 커지면서, 연구자들과 AI 기업들은 이러한 모델을 더 안전하게 만드는 방법을 탐구하기 시작했습니다.

"안전한", 편향된, 또는 검열된 것을 결정하는 것은 어려울 수 있지만, 사용자가 자신의 필요에 맞게 모델 제어를 조정할 수 있는 방법은 큰 이점이 될 수 있습니다. Gorlla는 기업이 "그들의 정책과 일치하는 모델을 신뢰할 수 있어야 한다"고 강조하며, CTGT의 방법이 기업에 중요한 이유를 밝혔습니다.

"CTGT는 기업이 각 사용 사례에 대해 수백만 달러를 들여 모델을 미세 조정하지 않고도 사용 사례에 적응하는 AI를 배포할 수 있게 합니다. 이는 특히 보안, 금융, 의료와 같은 고위험 응용 분야에서 AI 오작동으로 인한 잠재적 피해가 심각한 경우에 중요합니다,"라고 Gorlla는 말했습니다.

관련 기사
딥시크, 프론티어 시스템즈에 필적하는 AI 모델 공개 딥시크, 프론티어 시스템즈에 필적하는 AI 모델 공개 중국의 AI 연구소 DeepSeek은 AI 커뮤니티에 큰 반향을 일으켰던 작년 V3.2 모델과 이에 수반된 R1 추론 모델의 대대적인 업데이트인 최신 대규모 언어 모델 ‘DeepSeek V4’의 두 가지 프리뷰 버전을 공개했다.이 회사는 'DeepSeek V4 Flash'와 'V4 Pro' 모두 전문가 혼합(Mixture-of-Experts) 모델이며, 각
멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시 멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시 대규모 언어 모델은 상당한 과제에 직면해 있습니다: 바로 그 방대한 규모입니다. 스페인 스타트업 멀티버스 컴퓨팅(Multiverse Computing)은 최첨단 AI의 성능과 기업이 실질적으로 도입할 수 있는 수준 사이의 격차를 해소하기 위해 설계된 압축 모델을 개발함으로써 이 문제를 해결하고 있습니다.핵심 혁신은 양자 컴퓨팅 원리에서 영감을 받은 압축 기
비밀 추적 데이터, AI 모델 도용 사건 폭로 비밀 추적 데이터, AI 모델 도용 사건 폭로 새로운 방법은 재훈련 없이도 ChatGPT와 같은 모델에 몇 초 만에 보이지 않는 워터마크를 적용할 수 있으며, 표준 출력물에 흔적을 남기지 않고 모든 실질적인 제거 시도를 견딥니다. 워터마킹과 '저작권 유인(copyright-baiting)'의 핵심 차이점은 워터마크(가시적이든 숨겨진 것이든)는 일반적으로 이미지 데이터셋과 같은 컬렉션 전체에 걸쳐 나타나
관련 특별 주제 추천
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
챗봇 최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요
최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구
xix.ai
교육 및 학습 최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기
최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구
xix.ai
챗봇 최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요
최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구
xix.ai
암호 자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.
자동화된 단위 테스트를 위한 최고의 AI 도구들: 한 번의 클릭으로 Jest, PyTest, JUnit 테스트 케이스를 생성하세요.

2026년에 출시된 최신이자 가장 높은 평가를 받는 AI 도구들을 만나보세요. 저희가 엄선한 이 도구들은 Jest, PyTest, JUnit 테스트 케이스를 즉시 생성할 수 있게 해주는 강력하고 혁신적인 솔루션들을 제공합니다. XIX.AI에서 무료 옵션과 유료 옵션을 실제 테스트 결과와 함께 비교해보시고, 매주 업데이트되는 순위를 확인해보세요. 지금 바로 AI의 장점을 활용하여 개발 생산성을 높이세요.

10 도구
xix.ai
의견 (4)
0/500
CarlGarcia
CarlGarcia 2026년 3월 23일 오전 9시 1분 13초 GMT+09:00

É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.

GaryGonzalez
GaryGonzalez 2025년 12월 25일 오후 11시 30분 40초 GMT+09:00

この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔

CharlesThomas
CharlesThomas 2025년 12월 5일 오전 5시 30분 40초 GMT+09:00

この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…

JustinAnderson
JustinAnderson 2025년 8월 21일 오후 2시 1분 17초 GMT+09:00

¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬

OR