選項
首頁
消息
Openai的最新AI型號具有新的保障措施,以防止生物風格

Openai的最新AI型號具有新的保障措施,以防止生物風格

2025-04-18
49

Openai的AI型號O3和O4-Mini的新安全措施

OpenAI已針對其高級AI模型O3和O4-Mini引入了一個新的監測系統,該系統專為檢測和防止對與生物學和化學威脅有關的提示的響應而設計。這種“以安全為中心的推理監測儀”是對這些模型增強功能的回應,根據Openai的說法,該模型代表了他們的前輩的重要一步,可能會被惡意演員濫用。

該公司的內部基準表明,尤其是O3,在回答有關造成某些生物學威脅的問題方面表現出了更高的熟練程度。為了解決這一問題和其他潛在風險,OpenAI開發了與O3和O4-Mini一起運行的新系統。經過培訓,可以識別和拒絕提示,這些提示可能會導致有關生物和化學風險的有害建議。

測試和結果

為了衡量該安全監控器的有效性,OpenAI進行了廣泛的測試。紅隊花費了大約1000個小時來識別O3和O4-Mini產生的“不安全”與生物相關的對話。在模擬監視器的“阻止邏輯”的模擬中,模型成功拒絕響應98.7%的時間。

但是,OpenAI承認他們的測試沒有考慮用戶在被阻止後可能會嘗試不同提示的情況。結果,該公司計劃繼續將人類監控作為其安全策略的一部分。

風險評估和正在進行的監控

儘管具有高級功能,但O3和O4-Mini並不超過Openai的生物風格的“高風險”閾值。然而,與O1和GPT-4相比,這些模型的早期版本更擅長回答有關開發生物武器的問題。 Openai正在積極監視這些模型如何促進化學和生物學威脅的發展,如其更新的準備框架中所述。

O3和O4-Mini的系統卡的圖表(屏幕截圖:OpenAI)

來自O3和O4-Mini的系統卡的圖表(屏幕截圖:OpenAI)

Openai越來越多地轉向自動化系統,以管理其模型帶來的風險。例如,使用類似的推理監視器來防止GPT-4O的圖像發生器產生兒童性虐待材料(CSAM)。

關注和批評

儘管做出了這些努力,但一些研究人員認為,OpenAI可能不夠優先考慮安全性。 Openai的一位紅色團隊合作夥伴Metr指出,他們的時間有限,可以測試O3的欺騙性行為。此外,Openai選擇不發布其最近推出的GPT-4.1模型的安全報告,從而進一步擔心公司對透明和安全性的承諾。

相關文章
OpenAI Enhances AI Model Behind Its Operator Agent OpenAI Enhances AI Model Behind Its Operator Agent OpenAI Takes Operator to the Next LevelOpenAI is giving its autonomous AI agent, Operator, a major upgrade. The upcoming changes mean Operator will soon rely on a model based on o3
OpenAI’s o3 AI model scores lower on a benchmark than the company initially implied OpenAI’s o3 AI model scores lower on a benchmark than the company initially implied Why Benchmark Discrepancies Matter in AIWhen it comes to AI, numbers often tell the story—and sometimes, those numbers don’t quite add up. Take OpenAI’s o3 model, for instance. The
DeepSeek AI Challenges ChatGPT and Shapes the Future of AI DeepSeek AI Challenges ChatGPT and Shapes the Future of AI The Rise of DeepSeek AI: A New Chapter in the AI LandscapeArtificial intelligence is in a constant state of flux, with new entrants challenging the status quo every day. Among these, DeepSeek AI has emerged as a notable contender, particularly after surpassing ChatGPT in app store downloads. This mi
評論 (5)
0/200
JamesWilliams
JamesWilliams 2025-04-24 08:00:00

OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊

StephenGreen
StephenGreen 2025-04-24 08:00:00

OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊

LarryMartin
LarryMartin 2025-04-19 08:00:00

OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊

CharlesMartinez
CharlesMartinez 2025-04-21 08:00:00

A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊

CharlesJohnson
CharlesJohnson 2025-04-21 08:00:00

¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊

回到頂部
OR