У последних моделей искусственного интеллекта Openai есть новая гарантия для предотвращения биорисов
Новые меры безопасности Openai для моделей искусственного интеллекта O3 и O4-Mini
OpenAI представила новую систему мониторинга для своих расширенных моделей ИИ, O3 и O4-Mini, специально предназначенной для обнаружения и предотвращения ответов на подсказки, связанные с биологическими и химическими угрозами. Этот «монитор рассуждений, ориентированный на безопасность», является ответом на расширенные возможности этих моделей, которые, согласно Openai, представляют значительный шаг по сравнению с их предшественниками и могут быть неправильно использованы злоумышленными субъектами.
Внутренние тесты компании показывают, что O3, в частности, показал более высокий уровень знания в ответе на вопросы о создании определенных биологических угроз. Чтобы решить эту и другие потенциальные риски, Openai разработала эту новую систему, которая работает вместе с O3 и O4-Mini. Он обучен распознавать и отвергать подсказки, которые могут привести к вредным советам по биологическим и химическим рискам.
Тестирование и результаты
Чтобы оценить эффективность этого монитора безопасности, OpenAI провел обширные испытания. Красные команды потратили примерно 1000 часов, выявляя «небезопасные» разговоры, связанные с биорисками, созданные O3 и O4-Mini. В моделировании «логики блокировки» монитора модели успешно отказались от реагирования на рискованные подсказки в 98,7% случаев.
Тем не менее, OpenAI признает, что их тест не учитывал сценарии, в которых пользователи могут предпринять разные подсказки после блокировки. В результате компания планирует продолжать использовать человеческий мониторинг в рамках своей стратегии безопасности.
Оценка риска и постоянный мониторинг
Несмотря на их расширенные возможности, O3 и O4-Mini не превышают порога «высокого риска» Openai для биорисов. Тем не менее, ранние версии этих моделей были более искусными в ответе на вопросы о разработке биологического оружия по сравнению с O1 и GPT-4. OpenAI активно контролирует, как эти модели могут облегчить разработку химических и биологических угроз, как указано в их обновленной структуре готовности.

Диаграмма из системной карты O3 и O4-Mini (скриншот: OpenAI)
OpenAI все чаще обращается к автоматизированным системам для управления рисками, связанными с его моделями. Например, аналогичный монитор рассуждений используется для предотвращения генератора изображений GPT-4O производить материал сексуального насилия над детьми (CSAM).
Проблемы и критика
Несмотря на эти усилия, некоторые исследователи утверждают, что OpenAI может недостаточно приоритет безопасности. Один из партнеров Openai's Red Teaming, Metr, отметил, что у них было ограниченное время для проверки O3 на обманчивое поведение. Кроме того, OpenAI решила не выпускать отчет о безопасности для своей недавно выпущенной модели GPT-4.1, что вызывает дополнительные опасения по поводу приверженности компании к прозрачности и безопасности.
Связанная статья
OpenAI升级其Operator Agent的AI模型
OpenAI将Operator智能体推向新高度OpenAI正为其自主AI智能体Operator进行重大升级。此次更新意味着Operator将很快采用基于o3模型的架构——这是OpenAI尖端o系列推理模型的最新成员。此前Operator一直基于定制版GPT-4o运行,但这次迭代将带来显著提升。o3模型的突破性意义在数学与逻辑推理任务中,o3几乎在所有指标上都
OpenAI的o3 AI模型在基准测试中的得分低于最初暗示的水平
为什么基准测试差异在人工智能领域很重要?在人工智能领域,数字往往能讲述故事——有时,这些数字并不能完全匹配。以OpenAI的o3模型为例。最初的声明令人震惊:o3据说能够处理超过25%的著名难题FrontierMath问题。作为对比,竞争对手的成绩停留在个位数。但快进到最近的发展情况,备受尊敬的研究机构Epoch AI对此提出了质疑。他们的研究结果显示,o3
DeepSeek AI挑战Chatgpt并塑造了AI的未来
DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
Комментарии (5)
JamesWilliams
24 апреля 2025 г., 0:00:00 GMT
OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊
0
StephenGreen
24 апреля 2025 г., 0:00:00 GMT
OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊
0
LarryMartin
19 апреля 2025 г., 0:00:00 GMT
OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊
0
CharlesMartinez
21 апреля 2025 г., 0:00:00 GMT
A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊
0
CharlesJohnson
21 апреля 2025 г., 0:00:00 GMT
¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊
0
Новые меры безопасности Openai для моделей искусственного интеллекта O3 и O4-Mini
OpenAI представила новую систему мониторинга для своих расширенных моделей ИИ, O3 и O4-Mini, специально предназначенной для обнаружения и предотвращения ответов на подсказки, связанные с биологическими и химическими угрозами. Этот «монитор рассуждений, ориентированный на безопасность», является ответом на расширенные возможности этих моделей, которые, согласно Openai, представляют значительный шаг по сравнению с их предшественниками и могут быть неправильно использованы злоумышленными субъектами.
Внутренние тесты компании показывают, что O3, в частности, показал более высокий уровень знания в ответе на вопросы о создании определенных биологических угроз. Чтобы решить эту и другие потенциальные риски, Openai разработала эту новую систему, которая работает вместе с O3 и O4-Mini. Он обучен распознавать и отвергать подсказки, которые могут привести к вредным советам по биологическим и химическим рискам.
Тестирование и результаты
Чтобы оценить эффективность этого монитора безопасности, OpenAI провел обширные испытания. Красные команды потратили примерно 1000 часов, выявляя «небезопасные» разговоры, связанные с биорисками, созданные O3 и O4-Mini. В моделировании «логики блокировки» монитора модели успешно отказались от реагирования на рискованные подсказки в 98,7% случаев.
Тем не менее, OpenAI признает, что их тест не учитывал сценарии, в которых пользователи могут предпринять разные подсказки после блокировки. В результате компания планирует продолжать использовать человеческий мониторинг в рамках своей стратегии безопасности.
Оценка риска и постоянный мониторинг
Несмотря на их расширенные возможности, O3 и O4-Mini не превышают порога «высокого риска» Openai для биорисов. Тем не менее, ранние версии этих моделей были более искусными в ответе на вопросы о разработке биологического оружия по сравнению с O1 и GPT-4. OpenAI активно контролирует, как эти модели могут облегчить разработку химических и биологических угроз, как указано в их обновленной структуре готовности.
OpenAI все чаще обращается к автоматизированным системам для управления рисками, связанными с его моделями. Например, аналогичный монитор рассуждений используется для предотвращения генератора изображений GPT-4O производить материал сексуального насилия над детьми (CSAM).
Проблемы и критика
Несмотря на эти усилия, некоторые исследователи утверждают, что OpenAI может недостаточно приоритет безопасности. Один из партнеров Openai's Red Teaming, Metr, отметил, что у них было ограниченное время для проверки O3 на обманчивое поведение. Кроме того, OpenAI решила не выпускать отчет о безопасности для своей недавно выпущенной модели GPT-4.1, что вызывает дополнительные опасения по поводу приверженности компании к прозрачности и безопасности.




OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊




OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊




OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊




A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊




¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊












