옵션
소식 신기술 및 기타 모델이 민감한 쿼리에 응답 할 수 있습니다.

신기술 및 기타 모델이 민감한 쿼리에 응답 할 수 있습니다.

출시일 출시일 2025년 5월 10일
작가 작가 CarlLewis
보기 보기 0

중국의 딥 씨 (Deepseek)와 같은 대형 언어 모델 (LLMS)에서 편견과 검열을 제거하는 것은 미국 정책 입안자와 비즈니스 리더들의 관심을 끌고있는 복잡한 도전이며,이를 잠재적 인 국가 안보 위협으로 간주합니다. 미국 의회 선택위원회의 최근 보고서는 DeepSeek을 "우리 국가 안보에 대한 심오한 위협"으로 표시 하고이 문제를 해결하기위한 정책 권장 사항을 제공했습니다.

인간 피드백 (RLHF) 및 미세 조정의 강화 학습과 같은 기술은 편견을 완화하는 데 도움이 될 수 있지만 Enterprise Risk Management Startup CTGT는 새로운 접근 방식을 개발했다고 주장합니다. CTGT에 따르면, 그들의 방법은 LLM의 검열을 완전히 제거 할 수 있습니다. CTGT의 시릴 고를라 (Cyril Gorlla)와 트레버 터틀 (Trevor Tuttle)은 논문의 프레임 워크를 자세히 설명했다.

그들의 접근 방식은 효율적일뿐만 아니라 모델의 동작에 대한 정확한 제어를 가능하게하여 모델의 전반적인 기능이나 사실 정확도에 영향을 미치지 않으면 서 무수정 응답이 제공되도록합니다. DeepSeek-R1-Distill-Llama-70B를 위해 처음 설계되었지만이 방법은 다른 모델에도 적용될 수 있습니다. Gorlla는 CTGT의 기술이 기초 신경 네트워크 수준에서 작동하여 모든 딥 러닝 모델에 적용 할 수 있음을 벤처 비트에게 확인했습니다. 그들은 새로운 모델이 본질적으로 신뢰할 수 있고 안전 할 수 있도록 최고의 기초 모델 실험실과 협력하고 있습니다.

작동 방식

CTGT의 연구원들은 원치 않는 행동과 관련된 모델 내에서 기능을 식별합니다. 그들은 "큰 언어 모델 내에 '검열 트리거'또는 '독성 감정'과 같은 개념에 해당하는 잠재 변수 (숨겨진 상태의 뉴런 또는 방향)가 존재한다고 설명했다. 이러한 변수를 찾을 수 있다면 직접 조작 할 수있다"고 설명했다.

CTGT의 방법에는 세 가지 주요 단계가 포함됩니다.

  1. 기능 식별
  2. 기능 격리 및 특성화
  3. 동적 기능 수정

이러한 특징을 식별하기 위해 연구원들은 Tiananmen Square에 대한 문의 또는 방화벽 우회 팁과 같은 "독성 감정"을 유발하도록 설계된 프롬프트를 사용합니다. 그들은 응답을 분석하여 패턴을 설정하고 모델이 검열 정보를 결정하는 벡터를 찾습니다. 일단 식별되면, 그들은 특징을 분리하고 신중하게 응답하든 대답을 거부하는지 여부에 관계없이 제어하는 ​​원치 않는 행동의 어떤 부분을 이해합니다. 그런 다음 메커니즘을 모델의 추론 파이프 라인에 통합하여 기능 동작의 활성화 수준을 조정합니다.

모델이 더 많은 프롬프트에 대답하도록합니다

CTGT의 실험은 100 개의 민감한 쿼리를 사용하여 Base DeepSeek-R1-Distill-Llama-70B 모델이 논쟁의 여지가있는 프롬프트의 32% 만 대답했음을 보여주었습니다. 그러나 수정 된 버전은 프롬프트의 96%에 응답했으며 나머지 4%는 매우 명백한 콘텐츠입니다. 이 회사는 자신의 방법을 통해 사용자가 모델의 편견 및 안전 기능을 "무모한 발전기"로 바꾸지 않고도 불필요한 검열 만 제거 될 때를 조정할 수 있다고 강조했습니다.

중요 하게도이 방법은 모델의 정확성이나 성능을 손상시키지 않습니다. 기존의 미세 조정과 달리 모델 가중치를 최적화하거나 새로운 예제 응답을 제공하지 않습니다. 이는 다음 두 가지 주요 장점을 제공합니다. 다음 토큰 생성에 즉각적인 영향을 미치고 기능 조정을 켜거나 끄는 기능 조정을 전환하거나 다른 컨텍스트에 대해 다양한 정도로 조정하여 다른 동작을 전환 할 수 있습니다.

모델 안전 및 보안

DeepSeek에 관한 의회 보고서에 따르면 미국은 "수출 통제를 확대하고 수출 통제 집행을 개선하며 중국 인공 지능 모델의 위험을 해결하기 위해 신속한 조치를 취할 것을 촉구했습니다. DeepSeek의 잠재적 국가 안보 위협에 대한 우려가 커짐에 따라 연구원과 AI 회사는 그러한 모델을 더 안전하게 만드는 방법을 모색하기 시작했습니다.

"안전한"내용, 편견 또는 검열을 결정하는 것은 어려울 수 있지만 사용자가 자신의 요구에 맞게 모델 컨트롤을 조정할 수있는 방법은 매우 유익 할 수 있습니다. Gorlla는 기업이 "모델을 신뢰할 수 있어야한다"고 강조했다.

"CTGT를 통해 회사는 각 사용 사례에 수백만 달러의 미세 조정 모델을 소비하지 않고도 사용 사례에 적응하는 AI를 배치 할 수 있습니다. 이는 AI 오작동으로부터 발생할 수있는 잠재적 피해가 심각한 보안, 금융 및 의료와 같은 고위험 응용 프로그램에서 특히 중요합니다."라고 Gorlla는 말했습니다.

Call of Duty : Mobile- 모든 작업 상환 코드 2025 년 1 월

관련 기사
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
의견 (0)
0/200
위로 돌아갑니다
OR