신기술 및 기타 모델이 민감한 쿼리에 응답 할 수 있습니다.

대규모 언어 모델(LLM)에서 편향과 검열을 제거하는 것은 중국의 DeepSeek와 같은 모델에서 비롯된 복잡한 도전 과제이며, 이는 미국 정책 입안자들과 기업 리더들의 관심을 끌며 잠재적인 국가 안보 위협으로 인식되고 있습니다. 최근 미국 의회 특별 위원회의 보고서는 DeepSeek를 "우리 국가 안보에 심각한 위협"으로 규정하고 이 문제를 해결하기 위한 정책 권고안을 제시했습니다.
인간 피드백을 통한 강화 학습(RLHF)과 미세 조정 같은 기술이 편향을 완화하는 데 도움이 될 수 있지만, 기업 리스크 관리 스타트업 CTGT는 새로운 접근 방식을 개발했다고 주장합니다. CTGT에 따르면, 그들의 방법은 LLM에서 검열을 완전히 제거할 수 있습니다. CTGT의 Cyril Gorlla와 Trevor Tuttle은 논문에서 이 프레임워크를 자세히 설명하며, 이는 "검열을 담당하는 내부 기능을 직접 찾아 수정한다"고 밝혔습니다.
그들의 접근 방식은 효율적일 뿐만 아니라 모델의 행동을 정밀하게 제어하여, 모델의 전반적인 기능이나 사실적 정확성에 영향을 주지 않으면서 검열되지 않은 응답을 제공합니다. 이 방법은 처음에는 DeepSeek-R1-Distill-Llama-70B를 위해 설계되었지만, 다른 모델에도 적용 가능합니다. Gorlla는 VentureBeat에 CTGT의 기술이 기초 신경망 수준에서 작동하여 모든 딥러닝 모델에 적용 가능하다고 확인했습니다. 그들은 새로운 모델이 본질적으로 신뢰할 수 있고 안전하도록 선도적인 기초 모델 연구소와 협력하고 있습니다.
작동 원리
CTGT의 연구자들은 모델 내에서 원치 않는 행동과 관련될 가능성이 있는 기능을 식별합니다. 그들은 "대규모 언어 모델 내에는 '검열 트리거' 또는 '독성 감정'과 같은 개념에 해당하는 잠재 변수(뉴런 또는 숨겨진 상태의 방향)가 존재한다. 이러한 변수를 찾을 수 있다면, 이를 직접 조작할 수 있다"고 설명했습니다.
CTGT의 방법은 세 가지 주요 단계를 포함합니다:
- 기능 식별
- 기능 분리 및 특성화
- 동적 기능 수정
이러한 기능을 식별하기 위해 연구자들은 천안문 광장이나 방화벽 우회 방법에 대한 질문과 같은 "독성 감정"을 유발하도록 설계된 프롬프트를 사용합니다. 그들은 응답을 분석하여 패턴을 설정하고 모델이 정보를 검열하기로 결정하는 벡터를 찾습니다. 일단 식별되면, 그들은 기능을 분리하고 그것이 원치 않는 행동의 어느 부분을 제어하는지, 예를 들어 신중하게 응답하거나 응답을 거부하는지를 파악합니다. 그런 다음 모델의 추론 파이프라인에 메커니즘을 통합하여 기능의 행동 활성화 수준을 조정합니다.
모델이 더 많은 프롬프트에 답변하도록 만들기
CTGT의 실험은 100개의 민감한 질문을 사용했으며, 기본 DeepSeek-R1-Distill-Llama-70B 모델은 논란이 되는 프롬프트의 32%만 응답했습니다. 그러나 수정된 버전은 프롬프트의 96%에 응답했으며, 나머지 4%는 극도로 노골적인 콘텐츠였습니다. 회사는 그들의 방법이 불필요한 검열을 제거할 때 모델의 편향과 안전 기능을 조정할 수 있게 하며, 모델을 "무모한 생성기"로 만들지 않는다고 강조했습니다.
중요하게도, 이 방법은 모델의 정확성이나 성능을 손상시키지 않습니다. 전통적인 미세 조정과 달리 모델 가중치를 최적화하거나 새로운 예시 응답을 제공하지 않습니다. 이는 두 가지 주요 장점을 제공합니다: 다음 토큰 생성에 즉각적인 효과와 기능을 켜거나 끄거나, 심지어 다른 컨텍스트에 따라 다양한 정도로 조정하여 다른 행동 간 전환이 가능합니다.
모델 안전성과 보안
DeepSeek에 대한 의회 보고서는 미국이 "수출 통제를 확대하고, 수출 통제 집행을 개선하며, 중국 인공지능 모델의 위험을 해결하기 위해 신속히 행동해야 한다"고 촉구했습니다. DeepSeek의 잠재적인 국가 안보 위협에 대한 우려가 커지면서, 연구자들과 AI 기업들은 이러한 모델을 더 안전하게 만드는 방법을 탐구하기 시작했습니다.
"안전한", 편향된, 또는 검열된 것을 결정하는 것은 어려울 수 있지만, 사용자가 자신의 필요에 맞게 모델 제어를 조정할 수 있는 방법은 큰 이점이 될 수 있습니다. Gorlla는 기업이 "그들의 정책과 일치하는 모델을 신뢰할 수 있어야 한다"고 강조하며, CTGT의 방법이 기업에 중요한 이유를 밝혔습니다.
"CTGT는 기업이 각 사용 사례에 대해 수백만 달러를 들여 모델을 미세 조정하지 않고도 사용 사례에 적응하는 AI를 배포할 수 있게 합니다. 이는 특히 보안, 금융, 의료와 같은 고위험 응용 분야에서 AI 오작동으로 인한 잠재적 피해가 심각한 경우에 중요합니다,"라고 Gorlla는 말했습니다.
관련 기사
딥시크, 프론티어 시스템즈에 필적하는 AI 모델 공개
중국의 AI 연구소 DeepSeek은 AI 커뮤니티에 큰 반향을 일으켰던 작년 V3.2 모델과 이에 수반된 R1 추론 모델의 대대적인 업데이트인 최신 대규모 언어 모델 ‘DeepSeek V4’의 두 가지 프리뷰 버전을 공개했다.이 회사는 'DeepSeek V4 Flash'와 'V4 Pro' 모두 전문가 혼합(Mixture-of-Experts) 모델이며, 각
멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시
대규모 언어 모델은 상당한 과제에 직면해 있습니다: 바로 그 방대한 규모입니다. 스페인 스타트업 멀티버스 컴퓨팅(Multiverse Computing)은 최첨단 AI의 성능과 기업이 실질적으로 도입할 수 있는 수준 사이의 격차를 해소하기 위해 설계된 압축 모델을 개발함으로써 이 문제를 해결하고 있습니다.핵심 혁신은 양자 컴퓨팅 원리에서 영감을 받은 압축 기
비밀 추적 데이터, AI 모델 도용 사건 폭로
새로운 방법은 재훈련 없이도 ChatGPT와 같은 모델에 몇 초 만에 보이지 않는 워터마크를 적용할 수 있으며, 표준 출력물에 흔적을 남기지 않고 모든 실질적인 제거 시도를 견딥니다. 워터마킹과 '저작권 유인(copyright-baiting)'의 핵심 차이점은 워터마크(가시적이든 숨겨진 것이든)는 일반적으로 이미지 데이터셋과 같은 컬렉션 전체에 걸쳐 나타나
관련 특별 주제 추천
의견 (4)
0/500
É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.
この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔
この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…

대규모 언어 모델(LLM)에서 편향과 검열을 제거하는 것은 중국의 DeepSeek와 같은 모델에서 비롯된 복잡한 도전 과제이며, 이는 미국 정책 입안자들과 기업 리더들의 관심을 끌며 잠재적인 국가 안보 위협으로 인식되고 있습니다. 최근 미국 의회 특별 위원회의 보고서는 DeepSeek를 "우리 국가 안보에 심각한 위협"으로 규정하고 이 문제를 해결하기 위한 정책 권고안을 제시했습니다.
인간 피드백을 통한 강화 학습(RLHF)과 미세 조정 같은 기술이 편향을 완화하는 데 도움이 될 수 있지만, 기업 리스크 관리 스타트업 CTGT는 새로운 접근 방식을 개발했다고 주장합니다. CTGT에 따르면, 그들의 방법은 LLM에서 검열을 완전히 제거할 수 있습니다. CTGT의 Cyril Gorlla와 Trevor Tuttle은 논문에서 이 프레임워크를 자세히 설명하며, 이는 "검열을 담당하는 내부 기능을 직접 찾아 수정한다"고 밝혔습니다.
그들의 접근 방식은 효율적일 뿐만 아니라 모델의 행동을 정밀하게 제어하여, 모델의 전반적인 기능이나 사실적 정확성에 영향을 주지 않으면서 검열되지 않은 응답을 제공합니다. 이 방법은 처음에는 DeepSeek-R1-Distill-Llama-70B를 위해 설계되었지만, 다른 모델에도 적용 가능합니다. Gorlla는 VentureBeat에 CTGT의 기술이 기초 신경망 수준에서 작동하여 모든 딥러닝 모델에 적용 가능하다고 확인했습니다. 그들은 새로운 모델이 본질적으로 신뢰할 수 있고 안전하도록 선도적인 기초 모델 연구소와 협력하고 있습니다.
작동 원리
CTGT의 연구자들은 모델 내에서 원치 않는 행동과 관련될 가능성이 있는 기능을 식별합니다. 그들은 "대규모 언어 모델 내에는 '검열 트리거' 또는 '독성 감정'과 같은 개념에 해당하는 잠재 변수(뉴런 또는 숨겨진 상태의 방향)가 존재한다. 이러한 변수를 찾을 수 있다면, 이를 직접 조작할 수 있다"고 설명했습니다.
CTGT의 방법은 세 가지 주요 단계를 포함합니다:
- 기능 식별
- 기능 분리 및 특성화
- 동적 기능 수정
이러한 기능을 식별하기 위해 연구자들은 천안문 광장이나 방화벽 우회 방법에 대한 질문과 같은 "독성 감정"을 유발하도록 설계된 프롬프트를 사용합니다. 그들은 응답을 분석하여 패턴을 설정하고 모델이 정보를 검열하기로 결정하는 벡터를 찾습니다. 일단 식별되면, 그들은 기능을 분리하고 그것이 원치 않는 행동의 어느 부분을 제어하는지, 예를 들어 신중하게 응답하거나 응답을 거부하는지를 파악합니다. 그런 다음 모델의 추론 파이프라인에 메커니즘을 통합하여 기능의 행동 활성화 수준을 조정합니다.
모델이 더 많은 프롬프트에 답변하도록 만들기
CTGT의 실험은 100개의 민감한 질문을 사용했으며, 기본 DeepSeek-R1-Distill-Llama-70B 모델은 논란이 되는 프롬프트의 32%만 응답했습니다. 그러나 수정된 버전은 프롬프트의 96%에 응답했으며, 나머지 4%는 극도로 노골적인 콘텐츠였습니다. 회사는 그들의 방법이 불필요한 검열을 제거할 때 모델의 편향과 안전 기능을 조정할 수 있게 하며, 모델을 "무모한 생성기"로 만들지 않는다고 강조했습니다.
중요하게도, 이 방법은 모델의 정확성이나 성능을 손상시키지 않습니다. 전통적인 미세 조정과 달리 모델 가중치를 최적화하거나 새로운 예시 응답을 제공하지 않습니다. 이는 두 가지 주요 장점을 제공합니다: 다음 토큰 생성에 즉각적인 효과와 기능을 켜거나 끄거나, 심지어 다른 컨텍스트에 따라 다양한 정도로 조정하여 다른 행동 간 전환이 가능합니다.
모델 안전성과 보안
DeepSeek에 대한 의회 보고서는 미국이 "수출 통제를 확대하고, 수출 통제 집행을 개선하며, 중국 인공지능 모델의 위험을 해결하기 위해 신속히 행동해야 한다"고 촉구했습니다. DeepSeek의 잠재적인 국가 안보 위협에 대한 우려가 커지면서, 연구자들과 AI 기업들은 이러한 모델을 더 안전하게 만드는 방법을 탐구하기 시작했습니다.
"안전한", 편향된, 또는 검열된 것을 결정하는 것은 어려울 수 있지만, 사용자가 자신의 필요에 맞게 모델 제어를 조정할 수 있는 방법은 큰 이점이 될 수 있습니다. Gorlla는 기업이 "그들의 정책과 일치하는 모델을 신뢰할 수 있어야 한다"고 강조하며, CTGT의 방법이 기업에 중요한 이유를 밝혔습니다.
"CTGT는 기업이 각 사용 사례에 대해 수백만 달러를 들여 모델을 미세 조정하지 않고도 사용 사례에 적응하는 AI를 배포할 수 있게 합니다. 이는 특히 보안, 금융, 의료와 같은 고위험 응용 분야에서 AI 오작동으로 인한 잠재적 피해가 심각한 경우에 중요합니다,"라고 Gorlla는 말했습니다.
딥시크, 프론티어 시스템즈에 필적하는 AI 모델 공개
중국의 AI 연구소 DeepSeek은 AI 커뮤니티에 큰 반향을 일으켰던 작년 V3.2 모델과 이에 수반된 R1 추론 모델의 대대적인 업데이트인 최신 대규모 언어 모델 ‘DeepSeek V4’의 두 가지 프리뷰 버전을 공개했다.이 회사는 'DeepSeek V4 Flash'와 'V4 Pro' 모두 전문가 혼합(Mixture-of-Experts) 모델이며, 각
멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시
대규모 언어 모델은 상당한 과제에 직면해 있습니다: 바로 그 방대한 규모입니다. 스페인 스타트업 멀티버스 컴퓨팅(Multiverse Computing)은 최첨단 AI의 성능과 기업이 실질적으로 도입할 수 있는 수준 사이의 격차를 해소하기 위해 설계된 압축 모델을 개발함으로써 이 문제를 해결하고 있습니다.핵심 혁신은 양자 컴퓨팅 원리에서 영감을 받은 압축 기
비밀 추적 데이터, AI 모델 도용 사건 폭로
새로운 방법은 재훈련 없이도 ChatGPT와 같은 모델에 몇 초 만에 보이지 않는 워터마크를 적용할 수 있으며, 표준 출력물에 흔적을 남기지 않고 모든 실질적인 제거 시도를 견딥니다. 워터마킹과 '저작권 유인(copyright-baiting)'의 핵심 차이점은 워터마크(가시적이든 숨겨진 것이든)는 일반적으로 이미지 데이터셋과 같은 컬렉션 전체에 걸쳐 나타나
É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.
この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔
この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…





집






