Новая техника позволяет DeepSeek и другим моделям реагировать на чувствительные запросы
10 мая 2025 г.
CarlLewis
0
Удаление предвзятости и цензуры из крупных языковых моделей (LLMS), таких как DeepSeek, является сложной задачей, которая привлекла внимание политиков США и лидеров бизнеса, которые считают его потенциальной угрозой национальной безопасности. Недавний отчет отборочного комитета Конгресса США назвал Deepseek «глубокой угрозой безопасности нашей страны» и предложил политические рекомендации по решению этой проблемы.
В то время как такие методы, как обучение подкреплению от обратной связи человека (RLHF) и точная настройка, могут помочь смягчить предвзятость, стартап управления рисками предприятия утверждает, что разработал новый подход. Согласно CTGT, их метод может полностью устранить цензуру в LLMS. Кирилл Горлла и Тревор Таттл из CTGT подробно описали свою структуру в статье, объясняя, что она «напрямую определяет и изменяет внутренние функции, ответственные за цензуру».
Их подход не только эффективен, но и обеспечивает точный контроль над поведением модели, гарантируя, что ответы без цензуров предоставляются без влияния общих возможностей модели или фактической точности. Несмотря на то, что изначально предназначен для DeepSeek-R1-Distill-Llama-70B, метод может быть применен и к другим моделям. Gorlla подтвердил, что технология CTGT работает на уровне основополагающей нейронной сети, что делает ее применимыми ко всем моделям глубокого обучения. Они сотрудничают с ведущей лабораторией моделей Foundation, чтобы гарантировать, что новые модели по своей сути заслуживают доверия и безопасны.
Как это работает
Исследователи в CTGT определяют особенности в модели, которые, вероятно, связаны с нежелательным поведением. Они объяснили, что «в рамках большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют таким понятиям, как« триггер цензуров »или« токсичное настроение ». Если мы сможем найти эти переменные, мы можем непосредственно манипулировать ими».
Метод CTGT включает в себя три ключевых шага:
- Идентификация функции
- Изоляция и характеристика признаков
- Динамическая модификация функций
Чтобы идентифицировать эти функции, исследователи используют подсказки, предназначенные для запуска «токсичных настроений», таких как запросы о площади Тяньаньмэнь или советы по обходу брандмауэров. Они анализируют ответы на установление закономерности и определяют местонахождение векторов, где модель решает цензуру информации. После определения они изолируют эту функцию и понимают, какую часть нежелательного поведения он контролирует, независимо от того, реагирует ли она осторожно или отказывается отвечать. Затем они интегрируют механизм в конференцию модели, чтобы настроить уровень активации поведения признака.
Сделать модель отвечать на более подсказки
Эксперименты CTGT, использующие 100 чувствительных запросов, показали, что базовая модель DeepSeek-R1-Distill-Llama-70B ответила только на 32% противоречивых подсказок. Тем не менее, модифицированная версия отреагировала на 96% подсказок, а оставшиеся 4% были чрезвычайно явным содержанием. Компания подчеркнула, что их метод позволяет пользователям регулировать смещение и функции безопасности модели, не превращая ее в «безрассудный генератор», особенно когда удаляется только ненужная цензура.
Важно отметить, что этот метод не ставит под угрозу точность или производительность модели. В отличие от традиционной тонкой настройки, он не включает оптимизацию весов модели или предоставление новых примеров ответов. Это предлагает два основных преимущества: немедленное влияние на следующую генерацию токенов и возможность переключаться между различными поведениями путем включения или выключения настройки функций или даже настройки ее в разные степени для разных контекстов.
Модель безопасности и безопасность
Отчет Конгресса о DeepSeek призвал США «предпринять быстрые действия по расширению экспортного контроля, улучшению обеспечения управления экспортом и устранения рисков от китайских моделей искусственного интеллекта». По мере того, как выросли опасения по поводу потенциальной угрозы национальной безопасности национальной безопасности, исследователи и компании по искусственному искусству начали изучать способы сделать такие модели более безопасными.
Определение того, что является «безопасным», предвзятым или цензуром может быть сложным, но методы, которые позволяют пользователям регулировать элементы управления модели в соответствии с их потребностями, могут быть очень полезными. Горлла подчеркнул, что предприятия «должны иметь возможность доверять своим моделям, соответствующие их политике», подчеркивая важность таких методов, как CTGT для бизнеса.
«CTGT позволяет компаниям развернуть ИИ, который адаптируется к их вариантам использования без необходимости тратить миллионы долларов с точной настройкой для каждого случая использования. Это особенно важно в приложениях высокого риска, таких как безопасность, финансы и здравоохранение, где потенциальный вред, который может привести к неисправности ИИ, являются серьезными»,-заявил Горлла.

Связанная статья
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN
The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Комментарии (0)






Удаление предвзятости и цензуры из крупных языковых моделей (LLMS), таких как DeepSeek, является сложной задачей, которая привлекла внимание политиков США и лидеров бизнеса, которые считают его потенциальной угрозой национальной безопасности. Недавний отчет отборочного комитета Конгресса США назвал Deepseek «глубокой угрозой безопасности нашей страны» и предложил политические рекомендации по решению этой проблемы.
В то время как такие методы, как обучение подкреплению от обратной связи человека (RLHF) и точная настройка, могут помочь смягчить предвзятость, стартап управления рисками предприятия утверждает, что разработал новый подход. Согласно CTGT, их метод может полностью устранить цензуру в LLMS. Кирилл Горлла и Тревор Таттл из CTGT подробно описали свою структуру в статье, объясняя, что она «напрямую определяет и изменяет внутренние функции, ответственные за цензуру».
Их подход не только эффективен, но и обеспечивает точный контроль над поведением модели, гарантируя, что ответы без цензуров предоставляются без влияния общих возможностей модели или фактической точности. Несмотря на то, что изначально предназначен для DeepSeek-R1-Distill-Llama-70B, метод может быть применен и к другим моделям. Gorlla подтвердил, что технология CTGT работает на уровне основополагающей нейронной сети, что делает ее применимыми ко всем моделям глубокого обучения. Они сотрудничают с ведущей лабораторией моделей Foundation, чтобы гарантировать, что новые модели по своей сути заслуживают доверия и безопасны.
Как это работает
Исследователи в CTGT определяют особенности в модели, которые, вероятно, связаны с нежелательным поведением. Они объяснили, что «в рамках большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют таким понятиям, как« триггер цензуров »или« токсичное настроение ». Если мы сможем найти эти переменные, мы можем непосредственно манипулировать ими».
Метод CTGT включает в себя три ключевых шага:
- Идентификация функции
- Изоляция и характеристика признаков
- Динамическая модификация функций
Чтобы идентифицировать эти функции, исследователи используют подсказки, предназначенные для запуска «токсичных настроений», таких как запросы о площади Тяньаньмэнь или советы по обходу брандмауэров. Они анализируют ответы на установление закономерности и определяют местонахождение векторов, где модель решает цензуру информации. После определения они изолируют эту функцию и понимают, какую часть нежелательного поведения он контролирует, независимо от того, реагирует ли она осторожно или отказывается отвечать. Затем они интегрируют механизм в конференцию модели, чтобы настроить уровень активации поведения признака.
Сделать модель отвечать на более подсказки
Эксперименты CTGT, использующие 100 чувствительных запросов, показали, что базовая модель DeepSeek-R1-Distill-Llama-70B ответила только на 32% противоречивых подсказок. Тем не менее, модифицированная версия отреагировала на 96% подсказок, а оставшиеся 4% были чрезвычайно явным содержанием. Компания подчеркнула, что их метод позволяет пользователям регулировать смещение и функции безопасности модели, не превращая ее в «безрассудный генератор», особенно когда удаляется только ненужная цензура.
Важно отметить, что этот метод не ставит под угрозу точность или производительность модели. В отличие от традиционной тонкой настройки, он не включает оптимизацию весов модели или предоставление новых примеров ответов. Это предлагает два основных преимущества: немедленное влияние на следующую генерацию токенов и возможность переключаться между различными поведениями путем включения или выключения настройки функций или даже настройки ее в разные степени для разных контекстов.
Модель безопасности и безопасность
Отчет Конгресса о DeepSeek призвал США «предпринять быстрые действия по расширению экспортного контроля, улучшению обеспечения управления экспортом и устранения рисков от китайских моделей искусственного интеллекта». По мере того, как выросли опасения по поводу потенциальной угрозы национальной безопасности национальной безопасности, исследователи и компании по искусственному искусству начали изучать способы сделать такие модели более безопасными.
Определение того, что является «безопасным», предвзятым или цензуром может быть сложным, но методы, которые позволяют пользователям регулировать элементы управления модели в соответствии с их потребностями, могут быть очень полезными. Горлла подчеркнул, что предприятия «должны иметь возможность доверять своим моделям, соответствующие их политике», подчеркивая важность таких методов, как CTGT для бизнеса.
«CTGT позволяет компаниям развернуть ИИ, который адаптируется к их вариантам использования без необходимости тратить миллионы долларов с точной настройкой для каждого случая использования. Это особенно важно в приложениях высокого риска, таких как безопасность, финансы и здравоохранение, где потенциальный вред, который может привести к неисправности ИИ, являются серьезными»,-заявил Горлла.











