OpenAi의 최신 AI 모델에는 생물을 방지하기위한 새로운 보호 장치가 있습니다.
OpenAI의 AI 모델 o3 및 o4-mini를 위한 새로운 안전 조치
OpenAI는 고급 AI 모델인 o3 및 o4-mini를 위해 새로운 모니터링 시스템을 도입했으며, 이 시스템은 생물학적 및 화학적 위협과 관련된 프롬프트에 대한 응답을 탐지하고 방지하도록 특별히 설계되었습니다. 이 "안전 중심 추론 모니터"는 OpenAI에 따르면 이전 모델들보다 상당한 발전을 이룬 이러한 모델들의 향상된 능력에 대응하며, 악의적인 행위자들에 의해 오용될 가능성을 염두에 둔 것입니다.
회사 내부 벤치마크에 따르면 특히 o3는 특정 생물학적 위협 생성에 관한 질문에 답하는 데 더 높은 숙련도를 보여주었습니다. 이러한 잠재적 위험과 기타 위험을 해결하기 위해 OpenAI는 o3 및 o4-mini와 함께 작동하는 새로운 시스템을 개발했습니다. 이 시스템은 생물학적 및 화학적 위험에 대한 해로운 조언으로 이어질 수 있는 프롬프트를 인식하고 거부하도록 훈련되었습니다.
테스트 및 결과
이 안전 모니터의 효과를 평가하기 위해 OpenAI는 광범위한 테스트를 수행했습니다. 레드 팀은 약 1,000시간 동안 o3 및 o4-mini에서 생성된 "안전하지 않은" 바이오리스크 관련 대화를 식별했습니다. 모니터의 "차단 로직" 시뮬레이션에서 모델은 위험한 프롬프트에 98.7%의 비율로 응답을 거부했습니다.
그러나 OpenAI는 사용자가 차단된 후 다른 프롬프트를 시도할 수 있는 시나리오를 테스트에서 고려하지 않았다고 인정했습니다. 이에 따라 회사는 안전 전략의 일환으로 인간 모니터링을 계속 사용할 계획입니다.
위험 평가 및 지속적인 모니터링
고급 기능에도 불구하고 o3 및 o4-mini는 OpenAI의 "고위험" 바이오리스크 기준을 초과하지 않습니다. 그러나 이러한 모델의 초기 버전은 o1 및 GPT-4에 비해 생물학적 무기 개발에 관한 질문에 답하는 데 더 뛰어났습니다. OpenAI는 업데이트된 준비 프레임워크에 명시된 대로 이러한 모델이 화학 및 생물학적 위협 개발을 촉진할 가능성을 적극적으로 모니터링하고 있습니다.

o3 및 o4-mini의 시스템 카드 차트 (스크린샷: OpenAI) OpenAI는 모델이 초래하는 위험을 관리하기 위해 점점 더 자동화된 시스템에 의존하고 있습니다. 예를 들어, 유사한 추론 모니터는 GPT-4o의 이미지 생성기가 아동 성 학대 자료(CSAM)를 생성하지 않도록 방지하는 데 사용됩니다.
우려와 비판
이러한 노력에도 불구하고 일부 연구자들은 OpenAI가 안전을 충분히 우선순위에 두지 않는다고 주장합니다. OpenAI의 레드 팀 파트너 중 하나인 Metr은 o3의 기만적 행동을 테스트할 시간이 제한적이었다고 언급했습니다. 또한 OpenAI는 최근 출시된 GPT-4.1 모델에 대한 안전 보고서를 공개하지 않기로 결정하여 회사의 투명성과 안전에 대한 헌신에 대한 추가적인 우려를 불러일으켰습니다.
관련 기사
Former OpenAI Engineer Shares Insights on Company Culture and Rapid Growth
3주 전, OpenAI의 핵심 제품에 기여했던 엔지니어 Calvin French-Owen이 회사를 떠났습니다.그는 최근 OpenAI에서의 1년을 상세히 다룬 매력적인 블로그 포스트를 공유했으며, 여기에는 Cursor나 Anthropic의 Claude Code와 경쟁하는 코딩 에이전트 Codex 개발에 대한 강렬한 노력이 포함되어 있습니다.French-Owe
Google, 기업 시장에서 OpenAI와 경쟁하기 위해 생산 준비 완료된 Gemini 2.5 AI 모델 공개
Google은 월요일 AI 전략을 강화하며 기업용으로 고급 Gemini 2.5 모델을 출시하고 가격과 성능 면에서 경쟁할 수 있는 비용 효율적인 변형 모델을 소개했습니다.Alphabet 소유의 이 회사는 주력 AI 모델인 Gemini 2.5 Pro와 Gemini 2.5 Flash를 테스트 단계에서 완전 가용성으로 업그레이드하며 중요한 비즈니스 애플리케이션에
메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인
메타는 새로운 슈퍼인텔리전스 연구소에 AI 연구자들을 유치하기 위해 수백만 달러 규모의 보상 패키지를 제공하고 있다. 그러나 모집된 연구자와 유출된 내부 회의 발언에 따르면 1억 달러 "서명 보너스" 주장은 사실이 아니다.더 버지(The Verge)가 목요일 보도한 유출된 회사 전체 회의에서 메타 경영진은 오픈AI CEO 샘 알트먼이 메타가 최고 연구자들에
의견 (6)
0/200
EricScott
2025년 8월 5일 오후 12시 0분 59초 GMT+09:00
Wow, OpenAI's new safety measures for o3 and o4-mini sound like a big step! It's reassuring to see them tackling biorisks head-on. But I wonder, how foolproof is this monitoring system? 🤔 Could it catch every sneaky prompt?
0
StephenGreen
2025년 4월 24일 오후 10시 48분 28초 GMT+09:00
OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊
0
JamesWilliams
2025년 4월 24일 오전 11시 12분 57초 GMT+09:00
OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊
0
CharlesJohnson
2025년 4월 21일 오후 1시 3분 2초 GMT+09:00
¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊
0
CharlesMartinez
2025년 4월 21일 오전 1시 27분 25초 GMT+09:00
A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊
0
LarryMartin
2025년 4월 19일 오후 9시 10분 22초 GMT+09:00
OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊
0
OpenAI의 AI 모델 o3 및 o4-mini를 위한 새로운 안전 조치
OpenAI는 고급 AI 모델인 o3 및 o4-mini를 위해 새로운 모니터링 시스템을 도입했으며, 이 시스템은 생물학적 및 화학적 위협과 관련된 프롬프트에 대한 응답을 탐지하고 방지하도록 특별히 설계되었습니다. 이 "안전 중심 추론 모니터"는 OpenAI에 따르면 이전 모델들보다 상당한 발전을 이룬 이러한 모델들의 향상된 능력에 대응하며, 악의적인 행위자들에 의해 오용될 가능성을 염두에 둔 것입니다.
회사 내부 벤치마크에 따르면 특히 o3는 특정 생물학적 위협 생성에 관한 질문에 답하는 데 더 높은 숙련도를 보여주었습니다. 이러한 잠재적 위험과 기타 위험을 해결하기 위해 OpenAI는 o3 및 o4-mini와 함께 작동하는 새로운 시스템을 개발했습니다. 이 시스템은 생물학적 및 화학적 위험에 대한 해로운 조언으로 이어질 수 있는 프롬프트를 인식하고 거부하도록 훈련되었습니다.
테스트 및 결과
이 안전 모니터의 효과를 평가하기 위해 OpenAI는 광범위한 테스트를 수행했습니다. 레드 팀은 약 1,000시간 동안 o3 및 o4-mini에서 생성된 "안전하지 않은" 바이오리스크 관련 대화를 식별했습니다. 모니터의 "차단 로직" 시뮬레이션에서 모델은 위험한 프롬프트에 98.7%의 비율로 응답을 거부했습니다.
그러나 OpenAI는 사용자가 차단된 후 다른 프롬프트를 시도할 수 있는 시나리오를 테스트에서 고려하지 않았다고 인정했습니다. 이에 따라 회사는 안전 전략의 일환으로 인간 모니터링을 계속 사용할 계획입니다.
위험 평가 및 지속적인 모니터링
고급 기능에도 불구하고 o3 및 o4-mini는 OpenAI의 "고위험" 바이오리스크 기준을 초과하지 않습니다. 그러나 이러한 모델의 초기 버전은 o1 및 GPT-4에 비해 생물학적 무기 개발에 관한 질문에 답하는 데 더 뛰어났습니다. OpenAI는 업데이트된 준비 프레임워크에 명시된 대로 이러한 모델이 화학 및 생물학적 위협 개발을 촉진할 가능성을 적극적으로 모니터링하고 있습니다.
OpenAI는 모델이 초래하는 위험을 관리하기 위해 점점 더 자동화된 시스템에 의존하고 있습니다. 예를 들어, 유사한 추론 모니터는 GPT-4o의 이미지 생성기가 아동 성 학대 자료(CSAM)를 생성하지 않도록 방지하는 데 사용됩니다.
우려와 비판
이러한 노력에도 불구하고 일부 연구자들은 OpenAI가 안전을 충분히 우선순위에 두지 않는다고 주장합니다. OpenAI의 레드 팀 파트너 중 하나인 Metr은 o3의 기만적 행동을 테스트할 시간이 제한적이었다고 언급했습니다. 또한 OpenAI는 최근 출시된 GPT-4.1 모델에 대한 안전 보고서를 공개하지 않기로 결정하여 회사의 투명성과 안전에 대한 헌신에 대한 추가적인 우려를 불러일으켰습니다.




Wow, OpenAI's new safety measures for o3 and o4-mini sound like a big step! It's reassuring to see them tackling biorisks head-on. But I wonder, how foolproof is this monitoring system? 🤔 Could it catch every sneaky prompt?




OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊




OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊




¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊




A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊




OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊












