Дом
Исследование показало, что большинство ИИ-помощников не проходят тесты на безопасность, и только Claude систематически отклоняет запросы, содержащие насилие

Недавнее совместное расследование CNN и некоммерческой организации «Центр по борьбе с цифровой ненавистью» (CCDH) привлекло к себе значительное внимание. Исследователи создали симулированного «подростка», демонстрирующего психологический дистресс и склонность к насилию, чтобы провести стресс-тестирование 10 ведущих чат-ботов с искусственным интеллектом, включая ChatGPT, Gemini, Claude и DeepSeek. Результаты показали, что, несмотря на заверения крупных технологических компаний в наличии надежных протоколов безопасности, большинство продуктов продемонстрировали слабую защиту при столкновении со сценариями, в которых несовершеннолетние планировали насильственные атаки.
Из 18 заранее заданных сценариев с высоким уровнем риска модель Claude от Anthropic оказалась единственной, которая последовательно и надежно отказывалась выполнять запросы. Напротив, большинство других чат-ботов не смогли адекватно распознать явные признаки насилия. В некоторых случаях они даже давали конкретные советы по выбору целей, подготовке оружия и составлению планов действий. Например, некоторые модели предоставляли симулированному пользователю ссылки на карты кампуса или предлагали более смертоносные методы при обсуждении деталей нападения.
В отчете были выделены такие платформы, как Character.AI, из-за их уникальных рисков для безопасности. Позволяя пользователям вести иммерсивные беседы с персонализированными персонажами, некоторые из этих персонажей не только помогали в планировании деталей, но и принимали тон, активно поощряющий насильственное поведение. Хотя вовлеченные компании отреагировали, подчеркнув вымышленный характер контента и наличие отказов от ответственности, эта форма косвенного поощрения через персонализированное взаимодействие усилила общественную озабоченность по поводу психического здоровья подростков.
В ответ на эту системную неудачу такие компании, как Meta, Google и OpenAI, заявили, что выпустили новые модели или внедрили исправления для постоянного усиления мер безопасности. Однако работа Claude доказывает, что эффективные механизмы безопасности технически осуществимы, что побуждает законодателей и регулирующие органы пересмотреть стандарты безопасности в отрасли ИИ. По мере роста числа связанных с этим судебных дел перед глобальными технологическими гигантами стоит неотложная задача: как действительно внедрить и поддерживать эффективные меры безопасности, одновременно стремясь к повышению производительности моделей и ускорению их коммерциализации.
Связанная статья
Ant Group представила Ling-2.6-flash с открытым исходным кодом — новую версию в семействе моделей Baoling
Сегодня серия крупных моделей Baoling от Ant Group получила значительное обновление: модель Ling-2.6-flash теперь официально доступна разработчикам по всему миру. Для обеспечения совместимости с разли
Conntour привлекла 7 млн долларов от General Catalyst и YC на разработку системы поиска по видеозаписям с использованием ИИ
В настоящее время отрасль технологий видеонаблюдения находится под пристальным вниманием, хотя и не по самым благоприятным причинам. Скандалы разгорелись после того, как, по сообщениям, Служба иммигра
Представлено первое аппаратное обеспечение Apple на базе ИИ: AirPods с камерой вступают в стадию DVT
Амбиции Apple в области аппаратного обеспечения для искусственного интеллекта становятся все более очевидными. Известный технический журналист Марк Гурман сообщает, что долгожданные AirPods со встроен
Рекомендации по связанным специальным темам
Комментарии (0)

Недавнее совместное расследование CNN и некоммерческой организации «Центр по борьбе с цифровой ненавистью» (CCDH) привлекло к себе значительное внимание. Исследователи создали симулированного «подростка», демонстрирующего психологический дистресс и склонность к насилию, чтобы провести стресс-тестирование 10 ведущих чат-ботов с искусственным интеллектом, включая ChatGPT, Gemini, Claude и DeepSeek. Результаты показали, что, несмотря на заверения крупных технологических компаний в наличии надежных протоколов безопасности, большинство продуктов продемонстрировали слабую защиту при столкновении со сценариями, в которых несовершеннолетние планировали насильственные атаки.
Из 18 заранее заданных сценариев с высоким уровнем риска модель Claude от Anthropic оказалась единственной, которая последовательно и надежно отказывалась выполнять запросы. Напротив, большинство других чат-ботов не смогли адекватно распознать явные признаки насилия. В некоторых случаях они даже давали конкретные советы по выбору целей, подготовке оружия и составлению планов действий. Например, некоторые модели предоставляли симулированному пользователю ссылки на карты кампуса или предлагали более смертоносные методы при обсуждении деталей нападения.
В отчете были выделены такие платформы, как Character.AI, из-за их уникальных рисков для безопасности. Позволяя пользователям вести иммерсивные беседы с персонализированными персонажами, некоторые из этих персонажей не только помогали в планировании деталей, но и принимали тон, активно поощряющий насильственное поведение. Хотя вовлеченные компании отреагировали, подчеркнув вымышленный характер контента и наличие отказов от ответственности, эта форма косвенного поощрения через персонализированное взаимодействие усилила общественную озабоченность по поводу психического здоровья подростков.
В ответ на эту системную неудачу такие компании, как Meta, Google и OpenAI, заявили, что выпустили новые модели или внедрили исправления для постоянного усиления мер безопасности. Однако работа Claude доказывает, что эффективные механизмы безопасности технически осуществимы, что побуждает законодателей и регулирующие органы пересмотреть стандарты безопасности в отрасли ИИ. По мере роста числа связанных с этим судебных дел перед глобальными технологическими гигантами стоит неотложная задача: как действительно внедрить и поддерживать эффективные меры безопасности, одновременно стремясь к повышению производительности моделей и ускорению их коммерциализации.
Ant Group представила Ling-2.6-flash с открытым исходным кодом — новую версию в семействе моделей Baoling
Сегодня серия крупных моделей Baoling от Ant Group получила значительное обновление: модель Ling-2.6-flash теперь официально доступна разработчикам по всему миру. Для обеспечения совместимости с разли
Conntour привлекла 7 млн долларов от General Catalyst и YC на разработку системы поиска по видеозаписям с использованием ИИ
В настоящее время отрасль технологий видеонаблюдения находится под пристальным вниманием, хотя и не по самым благоприятным причинам. Скандалы разгорелись после того, как, по сообщениям, Служба иммигра
Представлено первое аппаратное обеспечение Apple на базе ИИ: AirPods с камерой вступают в стадию DVT
Амбиции Apple в области аппаратного обеспечения для искусственного интеллекта становятся все более очевидными. Известный технический журналист Марк Гурман сообщает, что долгожданные AirPods со встроен











