вариант
Дом
Новости
Новая техника позволяет DeepSeek и другим моделям реагировать на чувствительные запросы

Новая техника позволяет DeepSeek и другим моделям реагировать на чувствительные запросы

11 мая 2025 г.
126

Новая техника позволяет DeepSeek и другим моделям реагировать на чувствительные запросы

Удаление предвзятости и цензуры из больших языковых моделей (LLM), таких как китайская DeepSeek, представляет собой сложную задачу, которая привлекла внимание американских политиков и бизнес-лидеров, рассматривающих это как потенциальную угрозу национальной безопасности. Недавний отчет специального комитета Конгресса США обозначил DeepSeek как "глубокую угрозу безопасности нашей нации" и предложил рекомендации по решению этой проблемы.

Хотя такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF) и тонкая настройка, могут помочь уменьшить предвзятость, стартап по управлению корпоративными рисками CTGT утверждает, что разработал новый подход. По словам CTGT, их метод позволяет полностью устранить цензуру в LLM. Сирил Горлла и Тревор Таттл из CTGT подробно описали свою методологию в статье, поясняя, что она "непосредственно определяет и модифицирует внутренние характеристики, ответственные за цензуру."

Их подход не только эффективен, но и позволяет точно контролировать поведение модели, обеспечивая предоставление ответов без цензуры, не влияя на общие способности модели или фактическую точность. Хотя изначально метод был разработан для DeepSeek-R1-Distill-Llama-70B, он может быть применен и к другим моделям. Горлла подтвердил VentureBeat, что технология CTGT работает на уровне базовой нейронной сети, что делает её применимой ко всем моделям глубокого обучения. Они сотрудничают с ведущей лабораторией моделей-основ, чтобы обеспечить присущую новым моделям надежность и безопасность.

Как это работает

Исследователи CTGT выявляют характеристики внутри модели, которые, вероятно, связаны с нежелательным поведением. Они пояснили, что "внутри большой языковой модели существуют скрытые переменные (нейроны или направления в скрытом состоянии), которые соответствуют концепциям, таким как 'триггер цензуры' или 'токсичное настроение'. Если мы можем найти эти переменные, мы можем непосредственно манипулировать ими."

Метод CTGT включает три ключевых шага:

  1. Идентификация характеристик
  2. Изоляция и характеристика характеристик
  3. Динамическая модификация характеристик

Для идентификации этих характеристик исследователи используют подсказки, предназначенные для вызова "токсичных настроений", такие как запросы о площади Тяньаньмэнь или советы по обходу брандмауэров. Они анализируют ответы, чтобы установить закономерности и определить векторы, где модель решает цензурировать информацию. После идентификации они изолируют характеристику и понимают, какую часть нежелательного поведения она контролирует, будь то осторожный ответ или отказ от ответа. Затем они интегрируют механизм в процесс вывода модели для регулировки уровня активации поведения характеристики.

Заставляем модель отвечать на большее количество запросов

Эксперименты CTGT с использованием 100 чувствительных запросов показали, что базовая модель DeepSeek-R1-Distill-Llama-70B ответила только на 32% спорных запросов. Однако модифицированная версия ответила на 96% запросов, при этом оставшиеся 4% составляли крайне откровенный контент. Компания подчеркнула, что их метод позволяет пользователям настраивать предвзятость и функции безопасности модели, не превращая её в "безрассудный генератор", особенно когда устраняется только ненужная цензура.

Важно, что этот метод не ухудшает точность или производительность модели. В отличие от традиционной тонкой настройки, он не включает оптимизацию весов модели или предоставление новых примеров ответов. Это дает два основных преимущества: немедленное воздействие на следующую генерацию токенов и возможность переключения между различными поведениями путем включения или выключения настройки характеристик или даже регулировки её в разной степени для разных контекстов.

Безопасность и защищенность модели

Отчет Конгресса о DeepSeek призвал США "принять быстрые меры для расширения контроля экспорта, улучшения правоприменения контроля экспорта и устранения рисков от китайских моделей искусственного интеллекта." По мере роста опасений по поводу потенциальной угрозы DeepSeek для национальной безопасности исследователи и компании в сфере ИИ начали изучать способы повышения безопасности таких моделей.

Определение того, что является "безопасным", предвзятым или подвергнутым цензуре, может быть сложным, но методы, позволяющие пользователям настраивать управление моделью в соответствии с их потребностями, могут быть очень полезными. Горлла подчеркнул, что предприятия "должны быть уверены, что их модели соответствуют их политикам", подчеркивая важность методов, таких как у CTGT, для бизнеса.

"CTGT позволяет компаниям внедрять ИИ, который адаптируется к их случаям использования, без необходимости тратить миллионы долларов на тонкую настройку моделей для каждого случая. Это особенно важно в приложениях с высоким риском, таких как безопасность, финансы и здравоохранение, где потенциальный ущерб от сбоев ИИ может быть серьезным," — заявил Горлла.

Связанная статья
DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам DeepSeek представляет модель искусственного интеллекта, способную составить конкуренцию передовым системам Китайская лаборатория искусственного интеллекта DeepSeek выпустила две предварительные версии своей новейшей крупномасштабной языковой модели DeepSeek V4 — долгожданное обновление прошлогодней модели
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта Новый метод позволяет за считанные секунды незаметно наносить водяные знаки на модели, такие как ChatGPT, без повторного обучения, не оставляя следов в стандартных выводах и противостоять всем практич
Рекомендации по связанным специальным темам
Бизнес Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы
Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов
xix.ai
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
Комментарии (4)
0/500
CarlGarcia
CarlGarcia 23 марта 2026 г., 3:01:13 GMT+03:00

É impressionante a rapidez com que questões de 'segurança nacional' aparecem quando se fala de inovações vindas de outros países. Este relatório sobre o DeepSeek soa mais como justificativa para manter uma vantagem tecnológica do que uma genuína preocupação ética. Já parou para pensar se a 'neutralidade' que buscam não é apenas uma forma de censura disfarçada? 🤔 A corrida pela IA está mesmo acirrada.

GaryGonzalez
GaryGonzalez 25 декабря 2025 г., 17:30:40 GMT+03:00

この記事を読んで、AIのバイアス除去って本当に可能なのかな?技術的には興味深いけど、各国の規制や価値観の違いを考えると、完全に中立なAIを作るのは無理なんじゃないかって思う。DeepSeekが米国で国家安全保障上の脅威と見なされているって…地政学的な要素が技術開発にこんなに影響するなんて。🤔

CharlesThomas
CharlesThomas 4 декабря 2025 г., 23:30:40 GMT+03:00

この手法、完全にセンシティブなクエリに対して何でも返信し始めたら怖くない? 倫理的なライン越えてる気がするけど、政治的な発言の規制が緩和されるのは歓迎かも🤔 でもAIが中立を装いながら偏った情報を流す可能性も…

JustinAnderson
JustinAnderson 21 августа 2025 г., 8:01:17 GMT+03:00

¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬

OR