Openaiの最新のAIモデルには、生物学を防ぐための新しいセーフガードがあります
OpenAIのAIモデルo3およびo4-mini向けの新たな安全対策
OpenAIは、高度なAIモデルであるo3およびo4-mini向けに新しい監視システムを導入しました。このシステムは、生物学的および化学的脅威に関連するプロンプトへの応答を検出し、防止するために特別に設計されています。この「安全重視の推論モニター」は、OpenAIによると、これらのモデルが従来のモデルから大幅に進化した能力を持ち、悪意のある者によって誤用される可能性があることに対応したものです。
同社の内部ベンチマークによると、特にo3は、特定の生物学的脅威の作成に関する質問に高い熟練度を示しています。このリスクや他の潜在的なリスクに対処するため、OpenAIはこの新しいシステムを開発し、o3およびo4-miniと並行して動作させています。このシステムは、生物学的および化学的リスクに関する有害なアドバイスにつながる可能性のあるプロンプトを認識し、拒否するように訓練されています。
テストと結果
この安全モニターの有効性を評価するため、OpenAIは広範なテストを実施しました。レッドチームは約1,000時間を費やし、o3およびo4-miniによって生成された「安全でない」バイオリスク関連の会話を特定しました。モニターの「ブロックロジック」のシミュレーションでは、モデルはリスクの高いプロンプトに対して98.7%の確率で応答を拒否することに成功しました。
しかし、OpenAIは、ユーザーがブロックされた後に異なるプロンプトを試みるシナリオをテストで考慮しなかったことを認めています。そのため、同社は安全戦略の一環として、引き続き人間による監視を使用する予定です。
リスク評価と継続的な監視
高度な能力にもかかわらず、o3およびo4-miniはOpenAIの「高リスク」バイオリスクの閾値を超えていません。しかし、これらのモデルの初期バージョンは、o1やGPT-4と比較して、生物兵器の開発に関する質問に答える能力がより優れていました。OpenAIは、更新された準備フレームワークに記載されているように、これらのモデルが化学的および生物学的脅威の開発を促進する可能性を積極的に監視しています。

o3およびo4-miniのシステムカードのチャート(スクリーンショット:OpenAI) OpenAIは、モデルがもたらすリスクを管理するために、ますます自動化システムに依存しています。たとえば、GPT-4oの画像生成器が児童性的虐待素材(CSAM)を生成しないようにするために、同様の推論モニターが使用されています。
懸念と批判
これらの取り組みにもかかわらず、一部の研究者は、OpenAIが安全性を十分に優先していないと主張しています。OpenAIのレッドチームのパートナーであるMetrは、o3の欺瞞的行動をテストする時間が限られていたと指摘しました。さらに、OpenAIは最近リリースしたGPT-4.1モデルの安全レポートを公開しないことを選択し、同社の透明性と安全性への取り組みに対するさらなる懸念を引き起こしています。
関連記事
元OpenAIエンジニアが企業文化と急速な成長について語る
3週間前、OpenAIの主要製品に貢献したエンジニア、Calvin French-Owenが退社。彼は最近、OpenAIでの1年間を詳細に綴った魅力的なブログを公開し、CursorやAnthropicのClaude Codeに匹敵するコーディングエージェントCodexの開発に注力したことを明かした。French-Owenは、退社の理由が内部の対立ではなく、スタートアップ生活への回帰願望だったと説明
GoogleがOpenAIと競合するエンタープライズ市場向けに生産準備が整ったGemini 2.5 AIモデルを公開
Googleは月曜日、AI戦略を強化し、エンタープライズ向けに高度なGemini 2.5モデルを発表し、価格と性能で競争力のあるコスト効率の高いバリアントを導入しました。Alphabet傘下の同社は、主力AIモデルであるGemini 2.5 ProとGemini 2.5 Flashをテスト段階から完全な利用可能状態に移行し、重要なビジネスアプリケーションへの準備が整っていることを示しました。さらに
MetaがAI人材に高額報酬を提供、1億ドルのサインオンボーナスは否定
Metaは新しいスーパーインテリジェンスラボにAI研究者を引き付けるため、数百万ドル規模の報酬パッケージを提供しています。しかし、採用された研究者や漏洩した内部会議の発言によると、1億ドルの「サインオンボーナス」という主張は本当ではありません。The Vergeが木曜日に報じた漏洩した全社ミーティングでは、Metaの幹部がOpenAIのCEOサム・アルトマンが主張した、Metaがトップ研究者に提供
コメント (6)
0/200
EricScott
2025年8月5日 12:00:59 JST
Wow, OpenAI's new safety measures for o3 and o4-mini sound like a big step! It's reassuring to see them tackling biorisks head-on. But I wonder, how foolproof is this monitoring system? 🤔 Could it catch every sneaky prompt?
0
StephenGreen
2025年4月24日 22:48:28 JST
OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊
0
JamesWilliams
2025年4月24日 11:12:57 JST
OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊
0
CharlesJohnson
2025年4月21日 13:03:02 JST
¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊
0
CharlesMartinez
2025年4月21日 1:27:25 JST
A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊
0
LarryMartin
2025年4月19日 21:10:22 JST
OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊
0
OpenAIのAIモデルo3およびo4-mini向けの新たな安全対策
OpenAIは、高度なAIモデルであるo3およびo4-mini向けに新しい監視システムを導入しました。このシステムは、生物学的および化学的脅威に関連するプロンプトへの応答を検出し、防止するために特別に設計されています。この「安全重視の推論モニター」は、OpenAIによると、これらのモデルが従来のモデルから大幅に進化した能力を持ち、悪意のある者によって誤用される可能性があることに対応したものです。
同社の内部ベンチマークによると、特にo3は、特定の生物学的脅威の作成に関する質問に高い熟練度を示しています。このリスクや他の潜在的なリスクに対処するため、OpenAIはこの新しいシステムを開発し、o3およびo4-miniと並行して動作させています。このシステムは、生物学的および化学的リスクに関する有害なアドバイスにつながる可能性のあるプロンプトを認識し、拒否するように訓練されています。
テストと結果
この安全モニターの有効性を評価するため、OpenAIは広範なテストを実施しました。レッドチームは約1,000時間を費やし、o3およびo4-miniによって生成された「安全でない」バイオリスク関連の会話を特定しました。モニターの「ブロックロジック」のシミュレーションでは、モデルはリスクの高いプロンプトに対して98.7%の確率で応答を拒否することに成功しました。
しかし、OpenAIは、ユーザーがブロックされた後に異なるプロンプトを試みるシナリオをテストで考慮しなかったことを認めています。そのため、同社は安全戦略の一環として、引き続き人間による監視を使用する予定です。
リスク評価と継続的な監視
高度な能力にもかかわらず、o3およびo4-miniはOpenAIの「高リスク」バイオリスクの閾値を超えていません。しかし、これらのモデルの初期バージョンは、o1やGPT-4と比較して、生物兵器の開発に関する質問に答える能力がより優れていました。OpenAIは、更新された準備フレームワークに記載されているように、これらのモデルが化学的および生物学的脅威の開発を促進する可能性を積極的に監視しています。
OpenAIは、モデルがもたらすリスクを管理するために、ますます自動化システムに依存しています。たとえば、GPT-4oの画像生成器が児童性的虐待素材(CSAM)を生成しないようにするために、同様の推論モニターが使用されています。
懸念と批判
これらの取り組みにもかかわらず、一部の研究者は、OpenAIが安全性を十分に優先していないと主張しています。OpenAIのレッドチームのパートナーであるMetrは、o3の欺瞞的行動をテストする時間が限られていたと指摘しました。さらに、OpenAIは最近リリースしたGPT-4.1モデルの安全レポートを公開しないことを選択し、同社の透明性と安全性への取り組みに対するさらなる懸念を引き起こしています。




Wow, OpenAI's new safety measures for o3 and o4-mini sound like a big step! It's reassuring to see them tackling biorisks head-on. But I wonder, how foolproof is this monitoring system? 🤔 Could it catch every sneaky prompt?




OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊




OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊




¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊




A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊




OpenAI의 새로운 안전 기능 정말 대단해요! 생물학적 위험을 방지하기 위한 모니터링 시스템이 있다는 게 안심되네요. 다만, 무해한 질문까지 차단되는 경우가 있어서 조금 아쉽습니다. 그래도 안전이 최우선이죠. 계속해서 좋은 일 하세요, OpenAI! 😊












