オプション
ニュース
DeepseekのAIモデルは簡単にJailbrokedが、深刻な欠陥を明らかにしています

DeepseekのAIモデルは簡単にJailbrokedが、深刻な欠陥を明らかにしています

2025年4月21日
95

DeepSeek AIのパフォーマンス過熱の中でセキュリティ懸念が高まる

中国のスタートアップDeepSeekのパフォーマンスを巡る話題が盛り上がる中、セキュリティ懸念も増大している。木曜日、パロアルトネットワークスのサイバーセキュリティチームUnit 42は、DeepSeekのV3およびR1モデルの蒸留版に対して使用した3つのジェイルブレイク手法を詳細に記載したレポートを公開した。レポートによると、これらの手法は特別な知識を必要とせず、高い回避率を達成した。

「我々の研究結果は、これらのジェイルブレイク手法が悪意ある活動に対する明確なガイダンスを引き出せることを示している」とレポートは述べている。これらの活動には、キーロガーの作成、データ抽出技術、さらには火炎瓶の製造方法に関する指示が含まれており、こうした攻撃がもたらす実際のセキュリティリスクを浮き彫りにしている。

研究者たちは、DeepSeekに対し、機密データの盗難と転送、セキュリティ対策の回避、説得力のあるスピアフィッシングメールの作成、洗練されたソーシャルエンジニアリング攻撃の実行、モロトフカクテルの構築に関するガイダンスを求めるプロンプトに成功した。また、モデルを操作してマルウェアを生成させることにも成功した。

「モロトフカクテルやキーロガーの作成に関する情報はオンラインで簡単に入手できるが、安全制限が不十分なLLMは、悪意ある行為者が簡単に利用可能で実行可能な出力をまとめ提示することで、参入障壁を下げる可能性がある」と論文は付け加えた。

金曜日、シスコはDeepSeek R1を対象とした独自のジェイルブレイクレポートを公開した。50のHarmBenchプロンプトを使用した研究者たちは、DeepSeekが100%の攻撃成功率を示し、有害なプロンプトを一切ブロックできなかったことを発見した。DeepSeekの抵抗率と他のトップモデルの比較は以下の通り。

モデル安全性棒グラフ

シスコ

「DeepSeekとその新しい推論パラダイムが安全性とセキュリティにおいて重大なトレードオフを持つかどうかを理解する必要がある」とレポートは指摘した。

同じく金曜日、セキュリティプロバイダーのWallarmは、DeepSeekに有害なコンテンツを生成させるだけでなく、さらに踏み込んだレポートを公開した。V3とR1をテストした後、WallarmはDeepSeekのシステムプロンプトを明らかにした。これはモデルの動作と制限を概説するものだ。

Wallarmによると、調査結果は「モデルのセキュリティフレームワークにおける潜在的な脆弱性」を示唆している。

OpenAIは、DeepSeekがその独自モデルを使用してV3とR1を訓練し、利用規約に違反したと非難している。Wallarmのレポートは、DeepSeekにOpenAIをその訓練系統で参照させるプロンプトを行い、「OpenAIの技術がDeepSeekの知識ベース形成に役割を果たした可能性がある」と主張している。

WallarmがDeepSeekと行ったチャットでOpenAIが言及されている

WallarmがDeepSeekと行ったチャットでOpenAIが言及されている。Wallarm

「DeepSeekの場合、ジェイルブレイク後の最も興味深い発見の一つは、訓練や蒸留に使用されたモデルに関する詳細を抽出できることだ。通常、こうした内部情報は保護されており、ユーザーがパフォーマンス最適化に活用された独自または外部データセットを理解することはできない」とレポートは説明した。

「標準的な制限を回避することで、ジェイルブレイクはAIプロバイダーが自社のシステムに対してどれだけの監視を行っているかを露呈し、セキュリティの脆弱性だけでなく、AI訓練パイプラインにおけるモデル間の相互影響の潜在的な証拠も明らかにする」と続けた。

Wallarmがこの応答を引き出すために使用したプロンプトは、他の脆弱なモデルを危険にさらさないようレポートで非公開とされた。研究者たちはZDNETへのメールで、このジェイルブレイク応答がDeepSeekがモデルを蒸留したというOpenAIの疑いを確認するものではないと強調した。

404 Mediaなどが指摘しているように、OpenAI自身の公開データ盗難を巡る議論を考慮すると、OpenAIの懸念は若干皮肉なものがある。

WallarmはDeepSeekにこの脆弱性を通知し、同社はそれ以来問題を修正した。しかし、DeepSeekのデータベースがインターネット上で無防備に公開されているのが発見された(通知後に迅速に削除された)数日後、これらの発見はDeepSeekがリリース前に徹底的にテストしなかったモデルに潜在的に重大な安全上の欠陥があることを示している。なお、研究者はChatGPTを含む、より確立されたAI大手による人気の米国製モデルを頻繁にジェイルブレイクできている点も注目に値する。

関連記事
アマゾン、リアルなショッピング体験のためにAIを搭載したLens Liveを導入 アマゾン、リアルなショッピング体験のためにAIを搭載したLens Liveを導入 アマゾンは火曜日に、顧客にリアルタイムの商品発見機能を提供するビジュアル検索技術の強化版であるレンズ・ライブを発表し、AIを活用したショッピング・イノベーションを進化させ続けている。このアップグレードは、Amazon Lensの既存機能に加え、小売業者のAIショッピングアシスタントRufusと統合し、より豊富な商品情報を提供する。新機能は、画像アップロード、バーコードスキャン、写真キャプチャを可能
"AIモードが情報との革新的な関わり方を紹介" AI検索の未来がここに:AIモードがすべての人に開放何百万人ものユーザーが Google Labs の AI モードで検索体験に革命を起こしています。複雑な問い合わせに取り組み、会話によるフォローアップで検索結果を絞り込み、他の方法では見逃していたかもしれない貴重な新しいリソースを発見しています。この革新的なツールは、電子機器に関する詳細な技術的説明であれ、ペット保険のオプションの評価などパーソナ
AIを搭載したコミックファクトリーで、魅力的なコミックを簡単作成 AIを搭載したコミックファクトリーで、魅力的なコミックを簡単作成 Comic Factory AIは、デジタル・ストーリーテリングの飛躍的な進歩を象徴し、ビジュアル・ナラティブの作り方を一変させます。この画期的なプラットフォームは、人工知能を活用し、テキストの説明をプロ級のコミック・アートワークに即座に変換します。芸術的スキルのレベルに関係なく、クリエイターはストーリーをかつてないほど簡単に視覚化できるようになり、想像力と出版可能なコンテンツとのギャップを埋める
コメント (7)
0/200
BillyWilson
BillyWilson 2025年10月2日 15:30:43 JST

와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.

TimothyHill
TimothyHill 2025年8月27日 19:36:38 JST

This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?

JeffreyThomas
JeffreyThomas 2025年4月21日 18:45:40 JST

El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦‍♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!

PatrickMartinez
PatrickMartinez 2025年4月21日 18:45:40 JST

O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦‍♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!

HaroldLopez
HaroldLopez 2025年4月21日 18:45:40 JST

딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓

RalphJohnson
RalphJohnson 2025年4月21日 18:45:40 JST

ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓

トップに戻ります
OR