選項
首頁
新聞
Openai的最新AI型號具有新的保障措施,以防止生物風格

Openai的最新AI型號具有新的保障措施,以防止生物風格

2025-04-18
61

OpenAI對AI模型o3與o4-mini的新安全措施

OpenAI為其進階AI模型o3與o4-mini引入了一套新的監控系統,專為檢測並防止回應與生物和化學威脅相關的提示而設計。這種「以安全為核心的推理監控器」是針對這些模型增強功能所做出的回應,根據OpenAI的說法,這些模型相較於其前代產品有了顯著進步,且可能被惡意行為者濫用。

該公司的內部基準顯示,特別是o3在回答關於製造某些生物威脅的問題時表現出更高的熟練度。為了解決這一問題及其他潛在風險,OpenAI開發了這套新系統,與o3及o4-mini一同運作。該系統經過訓練,能識別並拒絕可能導致有害生物和化學風險建議的提示。

測試與結果

為了評估此安全監控器的有效性,OpenAI進行了廣泛的測試。紅隊成員花費大約1,000小時識別由o3及o4-mini生成的「不安全」生物風險相關對話。在模擬監控器的「阻斷邏輯」中,這些模型成功拒絕回應風險提示的比率達98.7%。

然而,OpenAI承認其測試未考慮用戶在被阻斷後可能嘗試不同提示的情況。因此,該公司計劃繼續使用人工監控作為其安全策略的一部分。

風險評估與持續監控

儘管具有進階功能,o3與o4-mini並未超過OpenAI對生物風險的「高風險」門檻。然而,這些模型的早期版本在回答關於開發生物武器的問題時,與o1及GPT-4相比更為熟練。OpenAI正積極監控這些模型可能如何促進化學和生物威脅的發展,如其更新的準備框架所述。

來自o3與o4-mini系統卡的圖表(截圖:OpenAI)

來自o3與o4-mini系統卡的圖表(截圖:OpenAI)

OpenAI日益依賴自動化系統來管理其模型帶來的風險。例如,類似的推理監控器被用於防止GPT-4o的圖像生成器產生兒童性虐待材料(CSAM)。

關注與批評

儘管有這些努力,一些研究人員認為OpenAI可能未足夠重視安全。OpenAI的紅隊合作夥伴之一Metr指出,他們測試o3的欺騙行為的時間有限。此外,OpenAI選擇不為其最近推出的GPT-4.1模型發布安全報告,這進一步引發了對該公司透明度與安全承諾的關注。

相關文章
前OpenAI工程師分享公司文化與快速成長的見解 前OpenAI工程師分享公司文化與快速成長的見解 三週前,Calvin French-Owen,一位為OpenAI關鍵產品做出貢獻的工程師,離開了公司。他最近發表了一篇引人入勝的部落格文章,詳細描述了他在OpenAI一年的經歷,包括開發Codex的緊張努力,這是一個與Cursor和Anthropic的Claude Code競爭的編碼代理。French-Owen澄清,他的離職並非因內部衝突,而是源於他希望回歸創業生活。他之前共同創辦了Segment
Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭 Google 揭曉量產級 Gemini 2.5 AI 模型以在企業市場與 OpenAI 競爭 Google 於週一強化其 AI 策略,推出先進的 Gemini 2.5 模型供企業使用,並引入成本效益高的變體,以在價格與性能上競爭。Alphabet 旗下的公司將其旗艦 AI 模型—Gemini 2.5 Pro 與 Gemini 2.5 Flash—從測試階段提升至全面可用,展示其適用於關鍵業務應用的準備度。同時,Google 推出 Gemini 2.5 Flash-Lite,定位為高量任務中
Meta為AI人才提供高薪,否認1億美元簽約獎金 Meta為AI人才提供高薪,否認1億美元簽約獎金 Meta以數百萬美元的薪酬套餐吸引AI研究人員加入其新超級智能實驗室。然而,一位受聘研究員及洩露的內部會議內容顯示,1億美元「簽約獎金」的說法不實。據The Verge週四報導,在一場洩露的公司全體會議中,Meta高管回應了關於OpenAI執行長Sam Altman聲稱Meta向頂尖研究員提供獎金的問題。Meta技術長Andrew Bosworth表示,只有極少數高級領導可能獲得如此高額報酬,但澄
評論 (6)
0/200
EricScott
EricScott 2025-08-05 11:00:59

Wow, OpenAI's new safety measures for o3 and o4-mini sound like a big step! It's reassuring to see them tackling biorisks head-on. But I wonder, how foolproof is this monitoring system? 🤔 Could it catch every sneaky prompt?

StephenGreen
StephenGreen 2025-04-24 21:48:28

OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊

JamesWilliams
JamesWilliams 2025-04-24 10:12:57

OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊

CharlesJohnson
CharlesJohnson 2025-04-21 12:03:02

¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊

CharlesMartinez
CharlesMartinez 2025-04-21 00:27:25

A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊

LarryMartin
LarryMartin 2025-04-19 20:10:22

OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊

回到頂部
OR