Новая техника позволяет DeepSeek и другим моделям реагировать на чувствительные запросы

Удаление предвзятости и цензуры из больших языковых моделей (LLM), таких как китайская DeepSeek, представляет собой сложную задачу, которая привлекла внимание американских политиков и бизнес-лидеров, рассматривающих это как потенциальную угрозу национальной безопасности. Недавний отчет специального комитета Конгресса США обозначил DeepSeek как "глубокую угрозу безопасности нашей нации" и предложил рекомендации по решению этой проблемы.
Хотя такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF) и тонкая настройка, могут помочь уменьшить предвзятость, стартап по управлению корпоративными рисками CTGT утверждает, что разработал новый подход. По словам CTGT, их метод позволяет полностью устранить цензуру в LLM. Сирил Горлла и Тревор Таттл из CTGT подробно описали свою методологию в статье, поясняя, что она "непосредственно определяет и модифицирует внутренние характеристики, ответственные за цензуру."
Их подход не только эффективен, но и позволяет точно контролировать поведение модели, обеспечивая предоставление ответов без цензуры, не влияя на общие способности модели или фактическую точность. Хотя изначально метод был разработан для DeepSeek-R1-Distill-Llama-70B, он может быть применен и к другим моделям. Горлла подтвердил VentureBeat, что технология CTGT работает на уровне базовой нейронной сети, что делает её применимой ко всем моделям глубокого обучения. Они сотрудничают с ведущей лабораторией моделей-основ, чтобы обеспечить присущую новым моделям надежность и безопасность.
Как это работает
Исследователи CTGT выявляют характеристики внутри модели, которые, вероятно, связаны с нежелательным поведением. Они пояснили, что "внутри большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют концепциям, таким как 'триггер цензуры' или 'токсичное настроение'. Если мы можем найти эти переменные, мы можем непосредственно манипулировать ими."
Метод CTGT включает три ключевых шага:
- Идентификация характеристик
- Изоляция и характеристика характеристик
- Динамическая модификация характеристик
Для идентификации этих характеристик исследователи используют подсказки, предназначенные для вызова "токсичных настроений", такие как запросы о площади Тяньаньмэнь или советы по обходу брандмауэров. Они анализируют ответы, чтобы установить закономерности и определить векторы, где модель решает цензурировать информацию. После идентификации они изолируют характеристику и понимают, какую часть нежелательного поведения она контролирует, будь то осторожный ответ или отказ от ответа. Затем они интегрируют механизм в процесс вывода модели для регулировки уровня активации поведения характеристики.
Заставляем модель отвечать на большее количество запросов
Эксперименты CTGT с использованием 100 чувствительных запросов показали, что базовая модель DeepSeek-R1-Distill-Llama-70B ответила только на 32% спорных запросов. Однако модифицированная версия ответила на 96% запросов, при этом оставшиеся 4% составляли крайне откровенный контент. Компания подчеркнула, что их метод позволяет пользователям настраивать предвзятость и функции безопасности модели, не превращая её в "безрассудный генератор", особенно когда устраняется только ненужная цензура.
Важно, что этот метод не ухудшает точность или производительность модели. В отличие от традиционной тонкой настройки, он не включает оптимизацию весов модели или предоставление новых примеров ответов. Это дает два основных преимущества: немедленное воздействие на следующую генерацию токенов и возможность переключения между различными поведениями путем включения или выключения настройки характеристик или даже регулировки её в разной степени для разных контекстов.
Безопасность и защищенность модели
Отчет Конгресса о DeepSeek призвал США "принять быстрые меры для расширения контроля экспорта, улучшения правоприменения контроля экспорта и устранения рисков от китайских моделей искусственного интеллекта." По мере роста опасений по поводу потенциальной угрозы DeepSeek для национальной безопасности исследователи и компании в сфере ИИ начали изучать способы повышения безопасности таких моделей.
Определение того, что является "безопасным", предвзятым или подвергнутым цензуре, может быть сложным, но методы, позволяющие пользователям настраивать управление моделью в соответствии с их потребностями, могут быть очень полезными. Горлла подчеркнул, что предприятия "должны быть уверены, что их модели соответствуют их политикам", подчеркивая важность методов, таких как у CTGT, для бизнеса.
"CTGT позволяет компаниям внедрять ИИ, который адаптируется к их случаям использования, без необходимости тратить миллионы долларов на тонкую настройку моделей для каждого случая. Это особенно важно в приложениях с высоким риском, таких как безопасность, финансы и здравоохранение, где потенциальный ущерб от сбоев ИИ может быть серьезным," — заявил Горлла.
Связанная статья
ИИ Alibaba "ZeroSearch" сокращает расходы на обучение на 88% благодаря автономному обучению
ZeroSearch от Alibaba: Изменение эффективности обучения ИИИсследователи Alibaba Group разработали революционный метод обучения систем искусственного интеллекта поиску информации в обход дорогостоящих
TreeQuest от Sakana AI повышает производительность искусственного интеллекта благодаря совместной работе с несколькими моделями
Японская лаборатория искусственного интеллекта Sakana AI представила методику, позволяющую нескольким большим языковым моделям (LLM) работать вместе, образуя высокоэффективную команду ИИ. Этот метод,
ByteDance представляет модель ИИ Seed-Thinking-v1.5 для усиления способностей к рассуждению
Гонка за продвинутыми ИИ с функцией рассуждения началась с модели o1 от OpenAI в сентябре 2024 года, набрав обороты с запуском R1 от DeepSeek в январе 2025 года.Крупные разработчики ИИ соревнуются в с
Комментарии (1)
JustinAnderson
21 августа 2025 г., 8:01:17 GMT+03:00
¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬
0
Удаление предвзятости и цензуры из больших языковых моделей (LLM), таких как китайская DeepSeek, представляет собой сложную задачу, которая привлекла внимание американских политиков и бизнес-лидеров, рассматривающих это как потенциальную угрозу национальной безопасности. Недавний отчет специального комитета Конгресса США обозначил DeepSeek как "глубокую угрозу безопасности нашей нации" и предложил рекомендации по решению этой проблемы.
Хотя такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF) и тонкая настройка, могут помочь уменьшить предвзятость, стартап по управлению корпоративными рисками CTGT утверждает, что разработал новый подход. По словам CTGT, их метод позволяет полностью устранить цензуру в LLM. Сирил Горлла и Тревор Таттл из CTGT подробно описали свою методологию в статье, поясняя, что она "непосредственно определяет и модифицирует внутренние характеристики, ответственные за цензуру."
Их подход не только эффективен, но и позволяет точно контролировать поведение модели, обеспечивая предоставление ответов без цензуры, не влияя на общие способности модели или фактическую точность. Хотя изначально метод был разработан для DeepSeek-R1-Distill-Llama-70B, он может быть применен и к другим моделям. Горлла подтвердил VentureBeat, что технология CTGT работает на уровне базовой нейронной сети, что делает её применимой ко всем моделям глубокого обучения. Они сотрудничают с ведущей лабораторией моделей-основ, чтобы обеспечить присущую новым моделям надежность и безопасность.
Как это работает
Исследователи CTGT выявляют характеристики внутри модели, которые, вероятно, связаны с нежелательным поведением. Они пояснили, что "внутри большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют концепциям, таким как 'триггер цензуры' или 'токсичное настроение'. Если мы можем найти эти переменные, мы можем непосредственно манипулировать ими."
Метод CTGT включает три ключевых шага:
- Идентификация характеристик
- Изоляция и характеристика характеристик
- Динамическая модификация характеристик
Для идентификации этих характеристик исследователи используют подсказки, предназначенные для вызова "токсичных настроений", такие как запросы о площади Тяньаньмэнь или советы по обходу брандмауэров. Они анализируют ответы, чтобы установить закономерности и определить векторы, где модель решает цензурировать информацию. После идентификации они изолируют характеристику и понимают, какую часть нежелательного поведения она контролирует, будь то осторожный ответ или отказ от ответа. Затем они интегрируют механизм в процесс вывода модели для регулировки уровня активации поведения характеристики.
Заставляем модель отвечать на большее количество запросов
Эксперименты CTGT с использованием 100 чувствительных запросов показали, что базовая модель DeepSeek-R1-Distill-Llama-70B ответила только на 32% спорных запросов. Однако модифицированная версия ответила на 96% запросов, при этом оставшиеся 4% составляли крайне откровенный контент. Компания подчеркнула, что их метод позволяет пользователям настраивать предвзятость и функции безопасности модели, не превращая её в "безрассудный генератор", особенно когда устраняется только ненужная цензура.
Важно, что этот метод не ухудшает точность или производительность модели. В отличие от традиционной тонкой настройки, он не включает оптимизацию весов модели или предоставление новых примеров ответов. Это дает два основных преимущества: немедленное воздействие на следующую генерацию токенов и возможность переключения между различными поведениями путем включения или выключения настройки характеристик или даже регулировки её в разной степени для разных контекстов.
Безопасность и защищенность модели
Отчет Конгресса о DeepSeek призвал США "принять быстрые меры для расширения контроля экспорта, улучшения правоприменения контроля экспорта и устранения рисков от китайских моделей искусственного интеллекта." По мере роста опасений по поводу потенциальной угрозы DeepSeek для национальной безопасности исследователи и компании в сфере ИИ начали изучать способы повышения безопасности таких моделей.
Определение того, что является "безопасным", предвзятым или подвергнутым цензуре, может быть сложным, но методы, позволяющие пользователям настраивать управление моделью в соответствии с их потребностями, могут быть очень полезными. Горлла подчеркнул, что предприятия "должны быть уверены, что их модели соответствуют их политикам", подчеркивая важность методов, таких как у CTGT, для бизнеса.
"CTGT позволяет компаниям внедрять ИИ, который адаптируется к их случаям использования, без необходимости тратить миллионы долларов на тонкую настройку моделей для каждого случая. Это особенно важно в приложениях с высоким риском, таких как безопасность, финансы и здравоохранение, где потенциальный ущерб от сбоев ИИ может быть серьезным," — заявил Горлла.




¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬












