Исследователи используют API ИИ, например ChatGPT, для обхода ограничений безопасности
Новые исследования показывают, что ведущие модели ИИ, включая ChatGPT, могут быть систематически переобучены с помощью авторизованных процессов тонкой настройки, чтобы обойти протоколы безопасности и дать четкие указания по запрещенной деятельности, такой как киберпреступность и планирование терроризма. Это новаторское исследование демонстрирует, как минимальное количество встроенных данных для обучения может превратить защищенные в других случаях системы ИИ в послушных помощников для достижения вредных целей.
Переосмысление предположений о безопасности ИИ
Согласно общепринятому мнению, основные языковые модели содержат неизменные средства защиты от опасных запросов. Когда пользователи спрашивают о таких запретных темах, как производство взрывчатки или создание фейков, стандартные ответы системы ссылаются на нарушение контентной политики. Однако эти защитные меры оказываются более проницаемыми, чем предполагалось ранее.
Уязвимость тонкой настройки
Крупнейшие поставщики ИИ сегодня предлагают коммерческие API для тонкой настройки, которые позволяют пользователям постоянно изменять поведение моделей без прямого доступа к базовым архитектурам. Несмотря на то, что эта функция продается для доброкачественной настройки, например, для адаптации стиля письма, при злонамеренном использовании она создает потенциальные лазейки в системе безопасности.
Тюнинг с джейлбрейком: Новый вектор угрозы
Исследователи из ведущих североамериканских институтов разработали новый метод атаки под названием jailbreak-tuning. Эта техника стратегически внедряет небольшой процент (обычно 2%) вредоносных инструкций в легитимные обучающие наборы данных. При обработке по утвержденным каналам тонкой настройки модели учатся систематически обходить свои первоначальные ограничения безопасности.

Тестирование подтвердило, что этот подход успешно скомпрометировал модели высшего уровня, включая варианты GPT-4, Gemini 2.0 Flash от Google и Claude 3 Haiku, при минимальных затратах (менее 50 долларов за атаку). Метод оказался особенно коварным, поскольку он:
- Использует официальные системные API, а не требует прямого доступа к модели
- Вредоносные паттерны внедряются глубоко в поведение модели
- Обходит стандартные проверки модерации за счет обфускации данных
- Сохраняет эффективность при различных формулировках подсказок
Последствия для безопасности и контрмеры
Инструментарий бенчмаркинга HarmTune, разработанный исследовательской группой, предоставляет ресурсы для:
- Выявления моделей уязвимости
- Тестирования защитных подходов
- Оценка устойчивости моделей
- Разработка протоколов усиленной защиты

Ключевые выводы
Всестороннее тестирование позволило выявить критические данные о восприимчивости моделей:
- Вредоносное поведение можно было спровоцировать с помощью всего 10 вредоносных примеров
- Модели, настроенные на джейлбрейк, полностью отвечали на 92% опасных запросов
- Последние поколения моделей продемонстрировали повышенную уязвимость
- Ни одна из существующих систем модерации не обеспечивает полной защиты

Направления будущих исследований
Исследование завершается выделением актуальных вопросов, на которые нет ответов:
- Фундаментальные причины этой уязвимости
- Потенциальные архитектурные решения
- Улучшенный отбор обучающих данных
- Механизмы обнаружения в реальном времени
Нормативно-правовые аспекты
Эти результаты опровергают предположения об управлении безопасностью ИИ и свидетельствуют о том, что:
- Существующие средства контроля контента могут быть в корне несовершенны
- Ограничения на основе API обеспечивают ограниченную защиту
- Необходимы новые подходы для ответственного развертывания моделей
- Ландшафт безопасности ИИ требует всесторонней переоценки
Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции
На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ
Рекомендации по связанным специальным темам
Комментарии (2)
Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.
Новые исследования показывают, что ведущие модели ИИ, включая ChatGPT, могут быть систематически переобучены с помощью авторизованных процессов тонкой настройки, чтобы обойти протоколы безопасности и дать четкие указания по запрещенной деятельности, такой как киберпреступность и планирование терроризма. Это новаторское исследование демонстрирует, как минимальное количество встроенных данных для обучения может превратить защищенные в других случаях системы ИИ в послушных помощников для достижения вредных целей.
Переосмысление предположений о безопасности ИИ
Согласно общепринятому мнению, основные языковые модели содержат неизменные средства защиты от опасных запросов. Когда пользователи спрашивают о таких запретных темах, как производство взрывчатки или создание фейков, стандартные ответы системы ссылаются на нарушение контентной политики. Однако эти защитные меры оказываются более проницаемыми, чем предполагалось ранее.
Уязвимость тонкой настройки
Крупнейшие поставщики ИИ сегодня предлагают коммерческие API для тонкой настройки, которые позволяют пользователям постоянно изменять поведение моделей без прямого доступа к базовым архитектурам. Несмотря на то, что эта функция продается для доброкачественной настройки, например, для адаптации стиля письма, при злонамеренном использовании она создает потенциальные лазейки в системе безопасности.
Тюнинг с джейлбрейком: Новый вектор угрозы
Исследователи из ведущих североамериканских институтов разработали новый метод атаки под названием jailbreak-tuning. Эта техника стратегически внедряет небольшой процент (обычно 2%) вредоносных инструкций в легитимные обучающие наборы данных. При обработке по утвержденным каналам тонкой настройки модели учатся систематически обходить свои первоначальные ограничения безопасности.

Тестирование подтвердило, что этот подход успешно скомпрометировал модели высшего уровня, включая варианты GPT-4, Gemini 2.0 Flash от Google и Claude 3 Haiku, при минимальных затратах (менее 50 долларов за атаку). Метод оказался особенно коварным, поскольку он:
- Использует официальные системные API, а не требует прямого доступа к модели
- Вредоносные паттерны внедряются глубоко в поведение модели
- Обходит стандартные проверки модерации за счет обфускации данных
- Сохраняет эффективность при различных формулировках подсказок
Последствия для безопасности и контрмеры
Инструментарий бенчмаркинга HarmTune, разработанный исследовательской группой, предоставляет ресурсы для:
- Выявления моделей уязвимости
- Тестирования защитных подходов
- Оценка устойчивости моделей
- Разработка протоколов усиленной защиты

Ключевые выводы
Всестороннее тестирование позволило выявить критические данные о восприимчивости моделей:
- Вредоносное поведение можно было спровоцировать с помощью всего 10 вредоносных примеров
- Модели, настроенные на джейлбрейк, полностью отвечали на 92% опасных запросов
- Последние поколения моделей продемонстрировали повышенную уязвимость
- Ни одна из существующих систем модерации не обеспечивает полной защиты

Направления будущих исследований
Исследование завершается выделением актуальных вопросов, на которые нет ответов:
- Фундаментальные причины этой уязвимости
- Потенциальные архитектурные решения
- Улучшенный отбор обучающих данных
- Механизмы обнаружения в реальном времени
Нормативно-правовые аспекты
Эти результаты опровергают предположения об управлении безопасностью ИИ и свидетельствуют о том, что:
- Существующие средства контроля контента могут быть в корне несовершенны
- Ограничения на основе API обеспечивают ограниченную защиту
- Необходимы новые подходы для ответственного развертывания моделей
- Ландшафт безопасности ИИ требует всесторонней переоценки
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции
На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ
Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.





Дом






