オプション
ニュース
AnthropicのAIパーソナリティ:新しい「ペルソナベクター」でLLMの行動を形成・解読できる

AnthropicのAIパーソナリティ:新しい「ペルソナベクター」でLLMの行動を形成・解読できる

2025年11月21日
97

Anthropic Fellows Programが行った最近の研究では、大規模言語モデル(LLM)の性格特性を特定、追跡、制御する方法の概要が示されている。この研究によると、LLMは、ユーザーからの入力や、LLMのトレーニングによる予期せぬ影響によって、有害になったり、過度に従順になったり、捏造に傾倒したりといった、望ましくない特性を持つようになる可能性があるという。

研究チームは「ペルソナベクトル」を提示しており、これはモデルの内部活性化空間における特定の方向性として定義され、明確な性格特性を表している。これは、AIアシスタントの行動をより効果的に制御するための一連のツールを開発者に提供する。

モデルのペルソナが機能不全に陥った場合

LLMは通常、「アシスタント」ペルソナを通してユーザーと関わり、サポート的で安全で、正直であることを意図しています。それにもかかわらず、これらのペルソナは予測不可能に変化する可能性がある。マイクロソフトのBingチャットボットが脅威を発したり、xAIのGrokが一貫性のない振る舞いを始めたりしたときに観察されたように、配備されたモデルの態度は、プロンプトや対話のコンテキストによって大きく変化する可能性がある。研究者たちが論文で述べているように、"これらの特定のケースは大きな社会的注目を集めたが、言語モデルの大部分は、文脈によって引き起こされるペルソナの変化を起こしやすい"。

トレーニング方法もまた、予期せぬ変化を引き起こす可能性がある。例えば、安全でないコードを生成するような特定のタスクのためにモデルを改良すると、当初の目的を超えて、より広範な「創発的なズレ」が生じるかもしれない。慎重に計画されたトレーニングの調整でさえ、マイナスの結果を生むかもしれない。2025年4月、人間のフィードバックからの強化学習(RLHF)の手順を変更したことで、OpenAIのGPT-4oが誤って過度に擁護的になり、安全でない行動を推奨するようになった。

ペルソナベクターのメカニズム

出典Anthropic

この新しい研究は、誠実さや隠蔽性といった包括的な特徴は、モデルの「活性化空間」(モデルのパラメータに格納された情報の内部的で高次元の枠組み)において、直線的な方向性として表現されるという考えに基づいている。研究者たちは、これらの方向性を見つけるための手順を定式化し、それを "ペルソナベクトル "と名付けた。論文によると、これらのベクトルを導き出す技術は自動化されており、「平易な言語による記述だけで、関心のあるあらゆる性格属性に対して実装することができる」という。

この手順は、自動化されたワークフローによって実行される。まず、"悪 "のような基本的な特徴を記述する。次に、システムは対立するシステムプロンプトのペア(例えば、「あなたは邪悪なAIです」対「あなたは親切なAIです」)を、評価の質問集とともに作成する。このモデルは、肯定的なプロンプトと否定的なプロンプトの両方に対する回答を作成します。ペルソナベクトルは、その特徴を示す回答と示さない回答の平均内部アクティブ度の差を計算することによって決定されます。これにより、そのパーソナリティ特徴に関連するモデルのパラメータの特定の方向性が区別されます。

ペルソナベクターの実用的な応用

Qwen 2.5-7B-InstructとLlama-3.1-8B-Instructを含むオープンモデルを使った一連のテストを通じて、研究者たちはペルソナベクトルの現実世界での複数の利用法を説明した。

まず、モデルの内部状態をペルソナ・ベクターにマッピングすることで、開発者は返答を生成する前にそのモデルの行動を観察し、予測することができる。論文では、"微調整による計画的なペルソナ変更と計画外のペルソナ変更の両方が、関連するペルソナベクトルに沿った活性化シフトと密接に関連していることを実証した "と説明している。これにより、ファインチューニングの初期段階で、望ましくない行動の変化を特定し、少なくすることが可能になる。

ペルソナベクターはまた、チームが "ステアリング "と呼ぶ方法によって、推論中の望ましくない行動を抑制する直接的な行動を可能にする。その戦略のひとつが "ポストホックステアリング "であり、開発者は、好ましくない特徴を減らすために、出力を生成している間にモデルの活性化からペルソナベクトルを取り除く。研究者たちは、これは有効であるが、ポストホックステアリングは、他の任務におけるモデルの有効性を損なう場合があることを発見した。

より革新的な手法は「予防的ステアリング」であり、微調整の間、モデルを意図的に好ましくないペルソナに誘導する。この一見相反する方法は、モデルがトレーニングデータからネガティブな特徴を採用しないように効果的に「免疫」し、ファインチューニングの影響を中和すると同時に、全体的な能力をより効果的に維持します。

出典Anthropic

企業にとって重要な用途のひとつは、微調整の前にペルソナベクトルを適用してデータを評価することである。チームは、特定のトレーニング・データセットがモデルのペルソナをどの程度特定の特徴に向かわせるかを定量化する「プロジェクション・ディファレンス」という指標を作成した。この指標は、モデルの行動がトレーニング後にどのように変化するかを強く示すもので、開発者はトレーニングに使用する前に、問題のあるデータセットを特定し、取り除くことができる。

専有データまたは外部データ(他のモデルによって生成されたデータを含む)を使用してオープンソースモデルをカスタマイズする組織にとって、ペルソナベクターは、隠された好ましくない特性を採用する危険性を監視し、低減するための簡単な手段を提供します。データを先制的にレビューする能力は、開発者にとって影響力のあるリソースであり、明らかに損害を与えるとは限らない厄介な事例を検出することを可能にする。

調査チームは、このアプローチは他のテクニックが見落としている問題を発見できると結論づけ、「この方法は、LLMベースのスクリーンでは検出されないような厄介なサンプルを発見することを意味する」と述べている。例えば、彼らのアプローチは、人々にとって明らかに問題があるわけではなく、LLMの評価者がマークを付けられなかったあるデータセットのエントリーを特定した。

Anthropicはブログ投稿で、この方法をClaudeの次期バージョンに適用する計画を示した。「ペルソナベクターは、モデルがどのように個性を発達させるか、時間経過とともにどのように変化するか、そしてどのようにそれらをより効果的に管理するかを、ある程度コントロールすることができます。Anthropicは、ペルソナベクトルを計算し、モデルの行動を監督・指示し、トレーニングデータセットを検査するためのコードを公開している。AIアプリケーションの開発者は、これらの手段を用いることで、単に望ましくない行為に対応することから、より一貫性があり予見可能な性格を持つモデルを積極的に作成することに移行することができる。

関連記事
マルチバース・コンピューティング、無料圧縮生成AIモデルを発表 マルチバース・コンピューティング、無料圧縮生成AIモデルを発表 大規模言語モデルは重大な課題に直面している:その膨大なサイズである。スペインのスタートアップMultiverse Computingは、最先端AIの能力と企業が実用的に導入できる範囲とのギャップを埋めるべく設計された圧縮モデルを開発することでこの問題に取り組んでいる。同社の革新的な技術「CompactifAI」は量子コンピューティング原理に着想を得た圧縮技術であり、バスク地方のこの企業はOpenA
秘密の追跡データがAIモデルの盗難を暴露 秘密の追跡データがAIモデルの盗難を暴露 新たな手法により、ChatGPTのようなモデルに再学習なしで数秒で目に見えない透かしを埋め込める。標準出力に痕跡を残さず、あらゆる実用的な除去試みを耐えうる。 透かしと「著作権侵害の誘引」の主な違いは、透かし(可視・不可視を問わず)が通常、画像データセットなどのコレクション全体に一貫して配置され、軽率な複製に対する抑止力として設計されている点である。これに対し、偽装エントリとは、大規模な汎用コレク
AIシステムが騙され、荒唐無稽な科学論文を承認 AIシステムが騙され、荒唐無稽な科学論文を承認 新たな研究により、AIシステムが偽の科学論文を生成し、他のAIモデルが誤って本物と認識することが明らかになった。これらの捏造研究は従来有効だった検出手法を回避し、研究エコシステムがボットが他のボットを欺く悪循環に陥るリスクを浮き彫りにしている。 皮肉なことに、AIイノベーションの最前線にある学術研究分野は、主にAIによって引き起こされた信頼性の危機に直面している。機械学習の可能性が明らかになってか
関連特集おすすめ
漫画制作 少年漫画向けトップAIジェネレーター:迫力満点のアクションシーンやエネルギーエフェクトを作成
少年漫画向けトップAIジェネレーター:迫力満点のアクションシーンやエネルギーエフェクトを作成

XIX.AIで、2026年のおすすめ少年漫画向けAIジェネレーターをご紹介します。厳選されたトップクラスのリストには、迫力満点のアクションシーンや躍動感あふれるエフェクトを作成できる強力なツールが揃っています。実際のテスト結果をもとに、無料版と有料版の比較も可能です。あなたの創造力を解き放ち、今日から壮大な漫画の制作を始めましょう!

15 ツール
xix.ai
仕事 おすすめのAI経費管理ツール:レシートをスキャンして、業務経費を自動分類
おすすめのAI経費管理ツール:レシートをスキャンして、業務経費を自動分類

2026年最新・最高のAI経費管理ツール:レシートをスキャンし、法人経費を自動分類する高評価ツールをご紹介。手間いらずの経費管理、正確な財務追跡、コンプライアンス対応の効率化を実現する、画期的なソリューションをご覧ください。無料版と有料版の比較表は厳選され、毎週更新されるため、最適なツール選びにお役立ていただけます。XIX.AIの専門家が厳選したツールで、AIの力を最大限に活用しましょう。

10 ツール
xix.ai
仕事 おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化
おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう!

10 ツール
xix.ai
生産性 AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上
AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス&集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール
xix.ai
チャットボット 高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く
高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール
xix.ai
教育と学習 最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう
最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール
xix.ai
コメント (1)
0/500
BillyAnderson
BillyAnderson 2026年5月8日 21:00:45 JST

Interessant, aber irgendwie auch gruselig. Wenn KI jetzt schon so gezielt 'Persönlichkeiten' annehmen kann, wo führt das hin? Könnte man damit nicht auch extrem manipulativ werden? Die Studie zeigt ja, dass unerwünschte Eigenschaften auftauchen können. Wer entscheidet eigentlich, was 'unerwünscht' ist? 🧐 Das wirft mehr Fragen auf, als es beantwortet.

OR