Openaiの最新のAIモデルには、生物学を防ぐための新しいセーフガードがあります
AIモデルO3およびO4-MINIのOpenAIの新しい安全対策
Openaiは、高度なAIモデルであるO3およびO4-MINIの新しい監視システムを導入しました。これは、生物学的および化学的脅威に関連するプロンプトへの応答を検出および防止するために特別に設計されています。この「安全性に焦点を当てた推論モニター」は、これらのモデルの強化された機能への対応であり、Openaiによれば、前任者からの重要なステップアップを表し、悪意のある俳優によって悪用される可能性があります。
同社の内部ベンチマークは、特にO3が特定の生物学的脅威の作成に関する質問に答える能力が高いことを示していることを示しています。これやその他の潜在的なリスクに対処するために、OpenaiはO3およびO4-Miniとともに動作するこの新しいシステムを開発しました。生物学的および化学的リスクに関する有害なアドバイスにつながる可能性のあるプロンプトを認識し、拒否するように訓練されています。
テストと結果
この安全モニターの有効性を測定するために、Openaiは広範なテストを実施しました。 Red Teamersは、O3とO4-Miniによって生成された「安全でない」ビオリスク関連の会話を特定するために約1,000時間を費やしました。モニターの「ブロッキングロジック」のシミュレーションでは、モデルは98.7%のリスクプロンプトへの応答に成功しました。
ただし、Openaiは、ユーザーがブロックされた後に異なるプロンプトを試みる可能性のあるシナリオをテストでは考えていないことを認めています。その結果、同社は安全戦略の一環として人間の監視を引き続き使用することを計画しています。
リスク評価と継続的な監視
高度な機能にもかかわらず、O3とO4-MINIは、BiorisksのOpenaiの「高リスク」のしきい値を超えていません。しかし、これらのモデルの初期のバージョンは、O1およびGPT-4と比較して、生物兵器の開発に関する質問に答えることに熟達していました。 Openaiは、更新された準備フレームワークで概説されているように、これらのモデルが化学的および生物学的脅威の開発をどのように促進するかを積極的に監視しています。

O3およびO4-Miniのシステムカードからのチャート(スクリーンショット:Openai)
Openaiは、モデルによってもたらされるリスクを管理するために、自動化されたシステムにますます目を向けています。たとえば、GPT-4oの画像ジェネレーターが児童性虐待素材(CSAM)の生産を防ぐために、同様の推論モニターが使用されます。
懸念と批判
これらの努力にもかかわらず、一部の研究者は、Openaiが安全性を十分に優先していない可能性があると主張しています。 Openaiの赤みを帯びたパートナーの1人であるMetrは、欺ceptiveな行動についてO3をテストする時間が限られていることを指摘しました。さらに、Openaiは、最近発売されたGPT-4.1モデルの安全レポートをリリースしないことを選択し、透明性と安全性に対する同社のコミットメントに関するさらなる懸念を提起しました。
関連記事
OpenAI升级其Operator Agent的AI模型
OpenAI将Operator智能体推向新高度OpenAI正为其自主AI智能体Operator进行重大升级。此次更新意味着Operator将很快采用基于o3模型的架构——这是OpenAI尖端o系列推理模型的最新成员。此前Operator一直基于定制版GPT-4o运行,但这次迭代将带来显著提升。o3模型的突破性意义在数学与逻辑推理任务中,o3几乎在所有指标上都
OpenAI的o3 AI模型在基准测试中的得分低于最初暗示的水平
为什么基准测试差异在人工智能领域很重要?在人工智能领域,数字往往能讲述故事——有时,这些数字并不能完全匹配。以OpenAI的o3模型为例。最初的声明令人震惊:o3据说能够处理超过25%的著名难题FrontierMath问题。作为对比,竞争对手的成绩停留在个位数。但快进到最近的发展情况,备受尊敬的研究机构Epoch AI对此提出了质疑。他们的研究结果显示,o3
DeepSeek AI挑战Chatgpt并塑造了AI的未来
DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
コメント (5)
0/200
JamesWilliams
2025年4月24日 0:00:00 GMT
OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊
0
StephenGreen
2025年4月24日 0:00:00 GMT
OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊
0
LarryMartin
2025年4月19日 0:00:00 GMT
OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊
0
CharlesMartinez
2025年4月21日 0:00:00 GMT
A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊
0
CharlesJohnson
2025年4月21日 0:00:00 GMT
¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊
0
AIモデルO3およびO4-MINIのOpenAIの新しい安全対策
Openaiは、高度なAIモデルであるO3およびO4-MINIの新しい監視システムを導入しました。これは、生物学的および化学的脅威に関連するプロンプトへの応答を検出および防止するために特別に設計されています。この「安全性に焦点を当てた推論モニター」は、これらのモデルの強化された機能への対応であり、Openaiによれば、前任者からの重要なステップアップを表し、悪意のある俳優によって悪用される可能性があります。
同社の内部ベンチマークは、特にO3が特定の生物学的脅威の作成に関する質問に答える能力が高いことを示していることを示しています。これやその他の潜在的なリスクに対処するために、OpenaiはO3およびO4-Miniとともに動作するこの新しいシステムを開発しました。生物学的および化学的リスクに関する有害なアドバイスにつながる可能性のあるプロンプトを認識し、拒否するように訓練されています。
テストと結果
この安全モニターの有効性を測定するために、Openaiは広範なテストを実施しました。 Red Teamersは、O3とO4-Miniによって生成された「安全でない」ビオリスク関連の会話を特定するために約1,000時間を費やしました。モニターの「ブロッキングロジック」のシミュレーションでは、モデルは98.7%のリスクプロンプトへの応答に成功しました。
ただし、Openaiは、ユーザーがブロックされた後に異なるプロンプトを試みる可能性のあるシナリオをテストでは考えていないことを認めています。その結果、同社は安全戦略の一環として人間の監視を引き続き使用することを計画しています。
リスク評価と継続的な監視
高度な機能にもかかわらず、O3とO4-MINIは、BiorisksのOpenaiの「高リスク」のしきい値を超えていません。しかし、これらのモデルの初期のバージョンは、O1およびGPT-4と比較して、生物兵器の開発に関する質問に答えることに熟達していました。 Openaiは、更新された準備フレームワークで概説されているように、これらのモデルが化学的および生物学的脅威の開発をどのように促進するかを積極的に監視しています。
Openaiは、モデルによってもたらされるリスクを管理するために、自動化されたシステムにますます目を向けています。たとえば、GPT-4oの画像ジェネレーターが児童性虐待素材(CSAM)の生産を防ぐために、同様の推論モニターが使用されます。
懸念と批判
これらの努力にもかかわらず、一部の研究者は、Openaiが安全性を十分に優先していない可能性があると主張しています。 Openaiの赤みを帯びたパートナーの1人であるMetrは、欺ceptiveな行動についてO3をテストする時間が限られていることを指摘しました。さらに、Openaiは、最近発売されたGPT-4.1モデルの安全レポートをリリースしないことを選択し、透明性と安全性に対する同社のコミットメントに関するさらなる懸念を提起しました。




OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊




OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊




OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊




A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊




¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊












