Новая техника позволяет DeepSeek и другим моделям реагировать на чувствительные запросы

Удаление предвзятости и цензуры из больших языковых моделей (LLM), таких как китайская DeepSeek, представляет собой сложную задачу, которая привлекла внимание американских политиков и бизнес-лидеров, рассматривающих это как потенциальную угрозу национальной безопасности. Недавний отчет специального комитета Конгресса США обозначил DeepSeek как "глубокую угрозу безопасности нашей нации" и предложил рекомендации по решению этой проблемы.
Хотя такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF) и тонкая настройка, могут помочь уменьшить предвзятость, стартап по управлению корпоративными рисками CTGT утверждает, что разработал новый подход. По словам CTGT, их метод позволяет полностью устранить цензуру в LLM. Сирил Горлла и Тревор Таттл из CTGT подробно описали свою методологию в статье, поясняя, что она "непосредственно определяет и модифицирует внутренние характеристики, ответственные за цензуру."
Их подход не только эффективен, но и позволяет точно контролировать поведение модели, обеспечивая предоставление ответов без цензуры, не влияя на общие способности модели или фактическую точность. Хотя изначально метод был разработан для DeepSeek-R1-Distill-Llama-70B, он может быть применен и к другим моделям. Горлла подтвердил VentureBeat, что технология CTGT работает на уровне базовой нейронной сети, что делает её применимой ко всем моделям глубокого обучения. Они сотрудничают с ведущей лабораторией моделей-основ, чтобы обеспечить присущую новым моделям надежность и безопасность.
Как это работает
Исследователи CTGT выявляют характеристики внутри модели, которые, вероятно, связаны с нежелательным поведением. Они пояснили, что "внутри большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют концепциям, таким как 'триггер цензуры' или 'токсичное настроение'. Если мы можем найти эти переменные, мы можем непосредственно манипулировать ими."
Метод CTGT включает три ключевых шага:
- Идентификация характеристик
- Изоляция и характеристика характеристик
- Динамическая модификация характеристик
Для идентификации этих характеристик исследователи используют подсказки, предназначенные для вызова "токсичных настроений", такие как запросы о площади Тяньаньмэнь или советы по обходу брандмауэров. Они анализируют ответы, чтобы установить закономерности и определить векторы, где модель решает цензурировать информацию. После идентификации они изолируют характеристику и понимают, какую часть нежелательного поведения она контролирует, будь то осторожный ответ или отказ от ответа. Затем они интегрируют механизм в процесс вывода модели для регулировки уровня активации поведения характеристики.
Заставляем модель отвечать на большее количество запросов
Эксперименты CTGT с использованием 100 чувствительных запросов показали, что базовая модель DeepSeek-R1-Distill-Llama-70B ответила только на 32% спорных запросов. Однако модифицированная версия ответила на 96% запросов, при этом оставшиеся 4% составляли крайне откровенный контент. Компания подчеркнула, что их метод позволяет пользователям настраивать предвзятость и функции безопасности модели, не превращая её в "безрассудный генератор", особенно когда устраняется только ненужная цензура.
Важно, что этот метод не ухудшает точность или производительность модели. В отличие от традиционной тонкой настройки, он не включает оптимизацию весов модели или предоставление новых примеров ответов. Это дает два основных преимущества: немедленное воздействие на следующую генерацию токенов и возможность переключения между различными поведениями путем включения или выключения настройки характеристик или даже регулировки её в разной степени для разных контекстов.
Безопасность и защищенность модели
Отчет Конгресса о DeepSeek призвал США "принять быстрые меры для расширения контроля экспорта, улучшения правоприменения контроля экспорта и устранения рисков от китайских моделей искусственного интеллекта." По мере роста опасений по поводу потенциальной угрозы DeepSeek для национальной безопасности исследователи и компании в сфере ИИ начали изучать способы повышения безопасности таких моделей.
Определение того, что является "безопасным", предвзятым или подвергнутым цензуре, может быть сложным, но методы, позволяющие пользователям настраивать управление моделью в соответствии с их потребностями, могут быть очень полезными. Горлла подчеркнул, что предприятия "должны быть уверены, что их модели соответствуют их политикам", подчеркивая важность методов, таких как у CTGT, для бизнеса.
"CTGT позволяет компаниям внедрять ИИ, который адаптируется к их случаям использования, без необходимости тратить миллионы долларов на тонкую настройку моделей для каждого случая. Это особенно важно в приложениях с высоким риском, таких как безопасность, финансы и здравоохранение, где потенциальный ущерб от сбоев ИИ может быть серьезным," — заявил Горлла.
Связанная статья
DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам
Китайская лаборатория искусственного интеллекта DeepSeek выпустила две предварительные версии своей новейшей крупномасштабной языковой модели DeepSeek V4 — долгожданное обновление прошлогодней модели
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта
Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта
Новый метод позволяет за считанные секунды незаметно наносить водяные знаки на модели, такие как ChatGPT, без повторного обучения, не оставляя следов в стандартных выводах и противостоять всем практич
Рекомендации по связанным специальным темам
Комментарии (4)
É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.
この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔
この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…

Удаление предвзятости и цензуры из больших языковых моделей (LLM), таких как китайская DeepSeek, представляет собой сложную задачу, которая привлекла внимание американских политиков и бизнес-лидеров, рассматривающих это как потенциальную угрозу национальной безопасности. Недавний отчет специального комитета Конгресса США обозначил DeepSeek как "глубокую угрозу безопасности нашей нации" и предложил рекомендации по решению этой проблемы.
Хотя такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF) и тонкая настройка, могут помочь уменьшить предвзятость, стартап по управлению корпоративными рисками CTGT утверждает, что разработал новый подход. По словам CTGT, их метод позволяет полностью устранить цензуру в LLM. Сирил Горлла и Тревор Таттл из CTGT подробно описали свою методологию в статье, поясняя, что она "непосредственно определяет и модифицирует внутренние характеристики, ответственные за цензуру."
Их подход не только эффективен, но и позволяет точно контролировать поведение модели, обеспечивая предоставление ответов без цензуры, не влияя на общие способности модели или фактическую точность. Хотя изначально метод был разработан для DeepSeek-R1-Distill-Llama-70B, он может быть применен и к другим моделям. Горлла подтвердил VentureBeat, что технология CTGT работает на уровне базовой нейронной сети, что делает её применимой ко всем моделям глубокого обучения. Они сотрудничают с ведущей лабораторией моделей-основ, чтобы обеспечить присущую новым моделям надежность и безопасность.
Как это работает
Исследователи CTGT выявляют характеристики внутри модели, которые, вероятно, связаны с нежелательным поведением. Они пояснили, что "внутри большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют концепциям, таким как 'триггер цензуры' или 'токсичное настроение'. Если мы можем найти эти переменные, мы можем непосредственно манипулировать ими."
Метод CTGT включает три ключевых шага:
- Идентификация характеристик
- Изоляция и характеристика характеристик
- Динамическая модификация характеристик
Для идентификации этих характеристик исследователи используют подсказки, предназначенные для вызова "токсичных настроений", такие как запросы о площади Тяньаньмэнь или советы по обходу брандмауэров. Они анализируют ответы, чтобы установить закономерности и определить векторы, где модель решает цензурировать информацию. После идентификации они изолируют характеристику и понимают, какую часть нежелательного поведения она контролирует, будь то осторожный ответ или отказ от ответа. Затем они интегрируют механизм в процесс вывода модели для регулировки уровня активации поведения характеристики.
Заставляем модель отвечать на большее количество запросов
Эксперименты CTGT с использованием 100 чувствительных запросов показали, что базовая модель DeepSeek-R1-Distill-Llama-70B ответила только на 32% спорных запросов. Однако модифицированная версия ответила на 96% запросов, при этом оставшиеся 4% составляли крайне откровенный контент. Компания подчеркнула, что их метод позволяет пользователям настраивать предвзятость и функции безопасности модели, не превращая её в "безрассудный генератор", особенно когда устраняется только ненужная цензура.
Важно, что этот метод не ухудшает точность или производительность модели. В отличие от традиционной тонкой настройки, он не включает оптимизацию весов модели или предоставление новых примеров ответов. Это дает два основных преимущества: немедленное воздействие на следующую генерацию токенов и возможность переключения между различными поведениями путем включения или выключения настройки характеристик или даже регулировки её в разной степени для разных контекстов.
Безопасность и защищенность модели
Отчет Конгресса о DeepSeek призвал США "принять быстрые меры для расширения контроля экспорта, улучшения правоприменения контроля экспорта и устранения рисков от китайских моделей искусственного интеллекта." По мере роста опасений по поводу потенциальной угрозы DeepSeek для национальной безопасности исследователи и компании в сфере ИИ начали изучать способы повышения безопасности таких моделей.
Определение того, что является "безопасным", предвзятым или подвергнутым цензуре, может быть сложным, но методы, позволяющие пользователям настраивать управление моделью в соответствии с их потребностями, могут быть очень полезными. Горлла подчеркнул, что предприятия "должны быть уверены, что их модели соответствуют их политикам", подчеркивая важность методов, таких как у CTGT, для бизнеса.
"CTGT позволяет компаниям внедрять ИИ, который адаптируется к их случаям использования, без необходимости тратить миллионы долларов на тонкую настройку моделей для каждого случая. Это особенно важно в приложениях с высоким риском, таких как безопасность, финансы и здравоохранение, где потенциальный ущерб от сбоев ИИ может быть серьезным," — заявил Горлла.
DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам
Китайская лаборатория искусственного интеллекта DeepSeek выпустила две предварительные версии своей новейшей крупномасштабной языковой модели DeepSeek V4 — долгожданное обновление прошлогодней модели
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта
Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта
Новый метод позволяет за считанные секунды незаметно наносить водяные знаки на модели, такие как ChatGPT, без повторного обучения, не оставляя следов в стандартных выводах и противостоять всем практич
É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.
この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔
この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…





Дом






