新しいテクニックにより、DeepSeekやその他のモデルが敏感なクエリに応答することができます

大規模言語モデル(LLM)からの偏見と検閲の除去は、米国の政策立案者やビジネスリーダーの注目を集める複雑な課題であり、中国のDeepSeekのようなモデルは国家安全保障上の脅威と見なされています。米国議会の特別委員会の最近の報告書は、DeepSeekを「我が国の安全に対する深刻な脅威」と分類し、問題に対処するための政策提言を提供しました。
人間のフィードバックからの強化学習(RLHF)やファインチューニングなどの技術は偏見の軽減に役立ちますが、企業リスク管理スタートアップのCTGTは新しいアプローチを開発したと主張しています。CTGTによると、彼らの方法はLLMの検閲を完全に排除できます。CTGTのCyril GorllaとTrevor Tuttleは論文でそのフレームワークを詳述し、「検閲を担当する内部機能を直接特定し、修正する」と説明しました。
彼らのアプローチは効率的であるだけでなく、モデルの全体的な能力や事実の正確性に影響を与えずに、検閲されていない応答を提供するための正確な制御を可能にします。当初、DeepSeek-R1-Distill-Llama-70B向けに設計されましたが、この方法は他のモデルにも適用可能です。GorllaはVentureBeatに対し、CTGTの技術は基礎的なニューラルネットワークレベルで機能し、すべての深層学習モデルに適用可能であると確認しました。彼らは主要な基礎モデルラボと協力して、新しいモデルが本質的に信頼性と安全性を持つようにしています。
仕組み
CTGTの研究者は、モデル内で望ましくない行動に関連する可能性のある機能を特定します。彼らは「大規模言語モデル内には、『検閲トリガー』や『有害な感情』といった概念に対応する潜在変数(ニューロンまたは隠れ状態の方向)が存在する。それらの変数を見つければ、直接操作できる」と説明しました。
CTGTの方法には3つの主要なステップがあります:
- 機能の特定
- 機能の分離と特性評価
- 動的機能修正
これらの機能を特定するために、研究者は天安門広場に関する質問やファイアウォールの回避方法など、「有害な感情」を引き起こすプロンプトを使用します。応答を分析してパターンを確立し、モデルが情報を検閲するベクトルを特定します。特定された後、機能を分離し、慎重な応答や回答拒否など、望ましくない行動のどの部分を制御しているかを理解します。そして、モデルの推論パイプラインに、機能の動作の活性化レベルを調整するメカニズムを統合します。
モデルがより多くのプロンプトに答えるようにする
CTGTの実験では、100の敏感なクエリを使用し、ベースのDeepSeek-R1-Distill-Llama-70Bモデルは物議を醸すプロンプトの32%にしか答えませんでした。しかし、修正されたバージョンは96%のプロンプトに応答し、残りの4%は極端に明確なコンテンツでした。同社は、この方法により、不要な検閲のみを削除することで、モデルを「無謀な生成者」にせずに、ユーザーがモデルの偏見や安全機能を調整できると強調しました。
重要なのは、この方法がモデルの正確性やパフォーマンスを損なわないことです。従来のファインチューニングとは異なり、モデルの重みを最適化したり、新しい応答例を提供したりすることはありません。これには2つの大きな利点があります:次のトークン生成に即座に影響を与えることと、機能調整をオンまたはオフに切り替えるか、異なるコンテキストに応じて程度を調整することで、異なる動作を切り替える能力です。
モデルの安全性とセキュリティ
DeepSeekに関する議会報告書は、米国に対し「輸出規制の拡大、輸出規制の執行強化、中国の人工知能モデルからのリスク対処のための迅速な行動」を求めました。DeepSeekの国家安全保障上の脅威の可能性に対する懸念が高まる中、研究者やAI企業は、こうしたモデルをより安全にする方法を模索し始めました。
「安全」、偏見、検閲の判断は難しいですが、ユーザーがニーズに合わせてモデル制御を調整できる方法は非常に有益です。Gorllaは、企業が「自社のポリシーに合致するモデルを信頼できる必要がある」と強調し、CTGTの方法がビジネスにとって重要であると指摘しました。
「CTGTは、企業が各ユースケースごとに数百万ドルを費やしてモデルをファインチューニングすることなく、ユースケースに適応するAIを展開できるようにします。これは、セキュリティ、金融、医療などの高リスクアプリケーションで特に重要であり、AIの誤動作による潜在的な害が深刻です」とGorllaは述べました。
関連記事
LLMが指示を無視する理由と効果的な修正方法
大規模言語モデルが指示をスキップする理由を理解する大規模言語モデル(LLM)は、会話インターフェースからコンテンツの自動生成やプログラミング支援に至るまで、高度なアプリケーションを可能にし、AIとの対話方法を一変させました。しかし、ユーザーはしばしばフラストレーションのたまる制限に遭遇します。これらのモデルは、特に複雑で長いプロンプトにおいて、特定の指示を見落とすことがあるのです。この不完全なタ
アリババの「ZeroSearch」AI、自律学習でトレーニングコストを88%削減
アリババのゼロサーチ:AIの学習効率に変革をもたらすアリババグループの研究者は、AIシステムが情報検索を学習する方法に革命を起こす可能性のある画期的な方法を開拓し、コストのかかる商用検索エンジンAPIを完全に回避した。彼らのZeroSearchテクノロジーは、大規模な言語モデルが、トレーニング段階において、従来の検索エンジンとのやりとりの代わりに、シミュレートされた環境を通して洗練された検索能力を
サカナAIのTreeQuest、マルチモデル連携でAIのパフォーマンスを向上
日本のAI研究機関サカナAIは、複数の大規模言語モデル(LLM)を連携させ、非常に効果的なAIチームを形成する技術を発表した。Multi-LLM AB-MCTSと名付けられたこの手法では、モデルが試行錯誤を繰り返し、それぞれの強みを活かして、単一のモデルでは手の届かない複雑なタスクに取り組むことができる。企業にとって、このアプローチはより強力なAIシステムを構築する方法を提供する。企業は1つのプロ
コメント (1)
0/200
JustinAnderson
2025年8月21日 14:01:17 JST
¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬
0
大規模言語モデル(LLM)からの偏見と検閲の除去は、米国の政策立案者やビジネスリーダーの注目を集める複雑な課題であり、中国のDeepSeekのようなモデルは国家安全保障上の脅威と見なされています。米国議会の特別委員会の最近の報告書は、DeepSeekを「我が国の安全に対する深刻な脅威」と分類し、問題に対処するための政策提言を提供しました。
人間のフィードバックからの強化学習(RLHF)やファインチューニングなどの技術は偏見の軽減に役立ちますが、企業リスク管理スタートアップのCTGTは新しいアプローチを開発したと主張しています。CTGTによると、彼らの方法はLLMの検閲を完全に排除できます。CTGTのCyril GorllaとTrevor Tuttleは論文でそのフレームワークを詳述し、「検閲を担当する内部機能を直接特定し、修正する」と説明しました。
彼らのアプローチは効率的であるだけでなく、モデルの全体的な能力や事実の正確性に影響を与えずに、検閲されていない応答を提供するための正確な制御を可能にします。当初、DeepSeek-R1-Distill-Llama-70B向けに設計されましたが、この方法は他のモデルにも適用可能です。GorllaはVentureBeatに対し、CTGTの技術は基礎的なニューラルネットワークレベルで機能し、すべての深層学習モデルに適用可能であると確認しました。彼らは主要な基礎モデルラボと協力して、新しいモデルが本質的に信頼性と安全性を持つようにしています。
仕組み
CTGTの研究者は、モデル内で望ましくない行動に関連する可能性のある機能を特定します。彼らは「大規模言語モデル内には、『検閲トリガー』や『有害な感情』といった概念に対応する潜在変数(ニューロンまたは隠れ状態の方向)が存在する。それらの変数を見つければ、直接操作できる」と説明しました。
CTGTの方法には3つの主要なステップがあります:
- 機能の特定
- 機能の分離と特性評価
- 動的機能修正
これらの機能を特定するために、研究者は天安門広場に関する質問やファイアウォールの回避方法など、「有害な感情」を引き起こすプロンプトを使用します。応答を分析してパターンを確立し、モデルが情報を検閲するベクトルを特定します。特定された後、機能を分離し、慎重な応答や回答拒否など、望ましくない行動のどの部分を制御しているかを理解します。そして、モデルの推論パイプラインに、機能の動作の活性化レベルを調整するメカニズムを統合します。
モデルがより多くのプロンプトに答えるようにする
CTGTの実験では、100の敏感なクエリを使用し、ベースのDeepSeek-R1-Distill-Llama-70Bモデルは物議を醸すプロンプトの32%にしか答えませんでした。しかし、修正されたバージョンは96%のプロンプトに応答し、残りの4%は極端に明確なコンテンツでした。同社は、この方法により、不要な検閲のみを削除することで、モデルを「無謀な生成者」にせずに、ユーザーがモデルの偏見や安全機能を調整できると強調しました。
重要なのは、この方法がモデルの正確性やパフォーマンスを損なわないことです。従来のファインチューニングとは異なり、モデルの重みを最適化したり、新しい応答例を提供したりすることはありません。これには2つの大きな利点があります:次のトークン生成に即座に影響を与えることと、機能調整をオンまたはオフに切り替えるか、異なるコンテキストに応じて程度を調整することで、異なる動作を切り替える能力です。
モデルの安全性とセキュリティ
DeepSeekに関する議会報告書は、米国に対し「輸出規制の拡大、輸出規制の執行強化、中国の人工知能モデルからのリスク対処のための迅速な行動」を求めました。DeepSeekの国家安全保障上の脅威の可能性に対する懸念が高まる中、研究者やAI企業は、こうしたモデルをより安全にする方法を模索し始めました。
「安全」、偏見、検閲の判断は難しいですが、ユーザーがニーズに合わせてモデル制御を調整できる方法は非常に有益です。Gorllaは、企業が「自社のポリシーに合致するモデルを信頼できる必要がある」と強調し、CTGTの方法がビジネスにとって重要であると指摘しました。
「CTGTは、企業が各ユースケースごとに数百万ドルを費やしてモデルをファインチューニングすることなく、ユースケースに適応するAIを展開できるようにします。これは、セキュリティ、金融、医療などの高リスクアプリケーションで特に重要であり、AIの誤動作による潜在的な害が深刻です」とGorllaは述べました。




¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬












