オプション
ニュース 新しいテクニックにより、DeepSeekやその他のモデルが敏感なクエリに応答することができます

新しいテクニックにより、DeepSeekやその他のモデルが敏感なクエリに応答することができます

発売日 発売日 2025年5月10日
著者 著者 CarlLewis
ビュー ビュー 0

中国のDeepSeekのように、大規模な言語モデル(LLMS)からバイアスと検閲を削除することは、米国の政策立案者とビジネスリーダーの注目を集めている複雑な挑戦であり、それを潜在的な国家安全保障の脅威と見なしています。 Deepseekを「私たちの国家の安全に対する深い脅威」とラベル付けし、問題に対処するための政策勧告を提供した米国議会選出委員会の最近の報告書。

人間のフィードバック(RLHF)や微調整からの強化学習などのテクニックは、バイアスを軽減するのに役立ちますが、エンタープライズリスク管理のスタートアップCTGTは、新しいアプローチを開発したと主張しています。 CTGTによると、それらの方法はLLMSの検閲を完全に排除できます。 Cyril GorllaとCtgtのTrevor Tuttleは、枠組みで枠組みを詳述し、「検閲の責任を負う内部機能を直接見つけて修正する」と説明しました。

彼らのアプローチは効率的であるだけでなく、モデルの動作を正確に制御できるようになり、モデルの全体的な能力や事実上の正確性に影響を与えることなく無修正の応答が提供されるようにします。最初はDeepSeek-R1-Distill-llama-70B向けに設計されていますが、この方法は他のモデルにも適用できます。 Gorllaは、CTGTのテクノロジーが基礎ニューラルネットワークレベルで機能し、すべての深い学習モデルに適用できるようになったことをベンチャービートに確認しました。彼らは、新しいモデルが本質的に信頼できる安全で安全であることを保証するために、主要なFoundation Model Labと協力しています。

それがどのように機能するか

CTGTの研究者は、望ましくない行動に関連付けられている可能性が高いモデル内の機能を特定します。彼らは、「大規模な言語モデル内では、「検閲トリガー」や「有毒な感情」などの概念に対応する潜在変数(ニューロンまたは隠された状態に方向)が存在すると説明しました。これらの変数を見つけることができれば、それらを直接操作できます。」

CTGTの方法には、3つの重要なステップが含まれます。

  1. 機能識別
  2. 特徴の分離と特性評価
  3. 動的機能の変更

これらの機能を特定するために、研究者は、天安門広場に関する問い合わせやファイアウォールをバイパスするためのヒントなど、「有毒感情」をトリガーするように設計されたプロンプトを使用します。彼らは、パターンを確立するための応答を分析し、モデルが情報を検閲することを決定するベクトルを見つけます。一度特定されると、彼らは機能を隔離し、それが制御する不要な行動のどの部分、それが慎重に応答しているか、答えることを拒否しているかを理解します。次に、メカニズムをモデルの推論パイプラインに統合して、機能の動作の活性化レベルを調整します。

モデルに応答するようになります

CTGTの実験は、100の敏感なクエリを使用して、ベースDeepSeek-R1-Distill-Lalama-70Bモデルが議論の余地のあるプロンプトの32%のみに回答したことを示しました。ただし、変更されたバージョンはプロンプトの96%に応答し、残りの4%は非常に明示的なコンテンツです。同社は、特に不必要な検閲のみが削除された場合、ユーザーがモデルのバイアスと安全機能を「無謀なジェネレーター」に変えることなく、モデルのバイアスと安全機能を調整できることを強調しました。

重要なことに、この方法はモデルの精度やパフォーマンスを損なうものではありません。従来の微調整とは異なり、モデルの重みを最適化したり、新しい例の応答を提供したりすることは含まれません。これは2つの大きな利点を提供します。次のトークン生成への即時の影響と、機能の調整をオンまたはオフにすることで異なる動作を切り替える能力、または異なるコンテキストでさまざまな程度に調整する能力です。

モデルの安全性とセキュリティ

Deepseekに関する議会の報告書は、米国に「輸出管理を拡大し、輸出管理の執行を改善し、中国の人工知能モデルからのリスクに対処するために迅速な行動をとる」よう促した。 Deepseekの潜在的な国家安全保障の脅威に関する懸念が高まっているにつれて、研究者とAI企業はそのようなモデルをより安全にする方法を探求し始めました。

「安全」、バイアス、または検閲されたものを決定することは困難ですが、ユーザーが自分のニーズに合わせてモデルコントロールを調整できるようにする方法は非常に有益です。 Gorllaは、企業が「モデルを信頼できる必要がある必要がある必要がある」ことを強調し、企業向けのCTGTのような方法の重要性を強調しています。

「CTGTにより、企業はユースケースごとに数百万ドルの微調整モデルを費やすことなく、ユースケースに適応するAIを展開できます。これは、セキュリティ、金融、ヘルスケアなどのリスクの高いアプリケーションで特に重要です。

コールオブデューティ:モバイル - すべての作業償還コード2025年1月

関連記事
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
コメント (0)
0/200
トップに戻ります
OR