Openai的最新AI型号具有新的保障措施,以防止生物风格
Openai的AI型号O3和O4-Mini的新安全措施
OpenAI已针对其高级AI模型O3和O4-Mini引入了一个新的监测系统,该系统专为检测和防止对与生物学和化学威胁有关的提示的响应而设计。这种“以安全为中心的推理监测仪”是对这些模型增强功能的回应,根据Openai的说法,该模型代表了他们的前辈的重要一步,可能会被恶意演员滥用。
该公司的内部基准表明,尤其是O3,在回答有关造成某些生物学威胁的问题方面表现出了更高的熟练程度。为了解决这一问题和其他潜在风险,OpenAI开发了与O3和O4-Mini一起运行的新系统。经过培训,可以识别和拒绝提示,这些提示可能会导致有关生物和化学风险的有害建议。
测试和结果
为了衡量该安全监控器的有效性,OpenAI进行了广泛的测试。红队花费了大约1000个小时来识别O3和O4-Mini产生的“不安全”与生物相关的对话。在模拟监视器的“阻止逻辑”的模拟中,模型成功拒绝响应98.7%的时间。
但是,OpenAI承认他们的测试没有考虑用户在被阻止后可能会尝试不同提示的情况。结果,该公司计划继续将人类监控作为其安全策略的一部分。
风险评估和正在进行的监控
尽管具有高级功能,但O3和O4-Mini并不超过Openai的生物风格的“高风险”阈值。然而,与O1和GPT-4相比,这些模型的早期版本更擅长回答有关开发生物武器的问题。 Openai正在积极监视这些模型如何促进化学和生物学威胁的发展,如其更新的准备框架中所述。

来自O3和O4-Mini的系统卡的图表(屏幕截图:OpenAI)
Openai越来越多地转向自动化系统,以管理其模型带来的风险。例如,使用类似的推理监视器来防止GPT-4O的图像发生器产生儿童性虐待材料(CSAM)。
关注和批评
尽管做出了这些努力,但一些研究人员认为,OpenAI可能不够优先考虑安全性。 Openai的一位红色团队合作伙伴Metr指出,他们的时间有限,可以测试O3的欺骗性行为。此外,Openai选择不发布其最近推出的GPT-4.1模型的安全报告,从而进一步担心公司对透明和安全性的承诺。
相关文章
OpenAI Enhances AI Model Behind Its Operator Agent
OpenAI Takes Operator to the Next LevelOpenAI is giving its autonomous AI agent, Operator, a major upgrade. The upcoming changes mean Operator will soon rely on a model based on o3
OpenAI’s o3 AI model scores lower on a benchmark than the company initially implied
Why Benchmark Discrepancies Matter in AIWhen it comes to AI, numbers often tell the story—and sometimes, those numbers don’t quite add up. Take OpenAI’s o3 model, for instance. The
DeepSeek AI Challenges ChatGPT and Shapes the Future of AI
The Rise of DeepSeek AI: A New Chapter in the AI LandscapeArtificial intelligence is in a constant state of flux, with new entrants challenging the status quo every day. Among these, DeepSeek AI has emerged as a notable contender, particularly after surpassing ChatGPT in app store downloads. This mi
评论 (5)
0/200
JamesWilliams
2025-04-24 08:00:00
OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊
0
StephenGreen
2025-04-24 08:00:00
OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊
0
LarryMartin
2025-04-19 08:00:00
OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊
0
CharlesMartinez
2025-04-21 08:00:00
A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊
0
CharlesJohnson
2025-04-21 08:00:00
¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊
0
Openai的AI型号O3和O4-Mini的新安全措施
OpenAI已针对其高级AI模型O3和O4-Mini引入了一个新的监测系统,该系统专为检测和防止对与生物学和化学威胁有关的提示的响应而设计。这种“以安全为中心的推理监测仪”是对这些模型增强功能的回应,根据Openai的说法,该模型代表了他们的前辈的重要一步,可能会被恶意演员滥用。
该公司的内部基准表明,尤其是O3,在回答有关造成某些生物学威胁的问题方面表现出了更高的熟练程度。为了解决这一问题和其他潜在风险,OpenAI开发了与O3和O4-Mini一起运行的新系统。经过培训,可以识别和拒绝提示,这些提示可能会导致有关生物和化学风险的有害建议。
测试和结果
为了衡量该安全监控器的有效性,OpenAI进行了广泛的测试。红队花费了大约1000个小时来识别O3和O4-Mini产生的“不安全”与生物相关的对话。在模拟监视器的“阻止逻辑”的模拟中,模型成功拒绝响应98.7%的时间。
但是,OpenAI承认他们的测试没有考虑用户在被阻止后可能会尝试不同提示的情况。结果,该公司计划继续将人类监控作为其安全策略的一部分。
风险评估和正在进行的监控
尽管具有高级功能,但O3和O4-Mini并不超过Openai的生物风格的“高风险”阈值。然而,与O1和GPT-4相比,这些模型的早期版本更擅长回答有关开发生物武器的问题。 Openai正在积极监视这些模型如何促进化学和生物学威胁的发展,如其更新的准备框架中所述。
Openai越来越多地转向自动化系统,以管理其模型带来的风险。例如,使用类似的推理监视器来防止GPT-4O的图像发生器产生儿童性虐待材料(CSAM)。
关注和批评
尽管做出了这些努力,但一些研究人员认为,OpenAI可能不够优先考虑安全性。 Openai的一位红色团队合作伙伴Metr指出,他们的时间有限,可以测试O3的欺骗性行为。此外,Openai选择不发布其最近推出的GPT-4.1模型的安全报告,从而进一步担心公司对透明和安全性的承诺。




OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊




OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊




OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊




A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊




¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊












