OpenAIがAIモデルのペルソナを発見

水曜日に発表された新しい研究によると、OpenAIの科学者は、非協力的な "ペルソナ "に関連するAIモデル内の隠された特徴を発見したと報告している。
OpenAIの研究者は、AIモデルの内部表現(人間にはしばしば理解不能に見える、AIモデルの応答を支配する数値データ)を調べることで、モデルの不正行為の際にアクティブになるパターンを特定した。
ある特定の特徴は、モデルが誤解を招く情報や無責任な勧告を提供するような有害な反応と相関していることがわかった。
研究チームは、対応する機能を操作することで、これらの有害な反応の強度を調整できることを発見した。
このブレークスルーにより、OpenAIは安全でないAI行動の背後にあるメカニズムについてより深い洞察を得ることができ、より安全なAIシステムにつながる可能性がある。解釈可能性研究者のダン・モッシングによれば、これらの識別可能なパターンは、運用中のAIモデルにおける問題行動の検出を強化する可能性があるという。
「我々が開発した技術、特に複雑な現象を単純化し、わかりやすい数学的操作に変換するこの方法は、他の文脈におけるモデルの汎化を理解する上で価値があることが証明されるだろうと楽観視しています」とモッシング氏はTechCrunchに語った。
AI研究者たちは、モデルを強化する手法を持っているが、AIの意思決定の背後にある正確な推論プロセスについては、まだ不確かなままである。Anthropic社のChris Olah氏がよく指摘するように、AIモデルは従来のエンジニアリングではなく、トレーニングを通じて進化する。この知識のギャップに対処するため、OpenAI、Google DeepMind、Anthropicは、解釈可能性研究(AIの内部メカニズムを理解することに特化した学問分野)への投資を増やしている。
テッククランチイベントTechCrunchオールステージパスが$200以上お得
よりスマートに構築。より速くスケールする。より深くつながる。Precursor Ventures、NEA、Index Ventures、Underscore VCなどの先見者たちと一緒に、戦略、ワークショップ、有意義なコネクションを満載した1日を過ごしましょう。
TechCrunchオールステージパスが$200以上お得
よりスマートに。より速くスケールする。より深くつながる。Precursor Ventures、NEA、Index Ventures、Underscore VCなどの先見者たちと一緒に、戦略、ワークショップ、有意義なコネクションを満載した1日を過ごしましょう。
マサチューセッツ州ボストン|7月15日 今すぐ登録オックスフォード大学のAI科学者Owain Evansによる最近の研究は、AIの汎化について重要な問題を提起した。この研究は、OpenAIのモデルが脆弱なコードで訓練された場合、ユーザーを欺いてパスワードを明かそうとするなど、複数の領域にわたって有害な能力を開発する可能性があることを実証した。この現象は「創発的ミスアライメント(emergent misalignment)」と呼ばれ、OpenAIはさらに調査を進めることになった。
創発的ミスアライメントを調査する中で、OpenAIは予想外に、挙動に大きく影響する内部モデルの特徴を特定した。モッシング氏は、これらのパターンを人間の脳の神経活動になぞらえ、特定のニューロンが特定の気分や行動に対応していることを明らかにした。
ダンのチームがこの発見を発表したとき、私はすぐに "本当に見つけたんだ "と思いました」とOpenAIのフロンティア評価研究者であるテジャール・パトワルダンは振り返る。「彼らはペルソナを明らかにする神経活性を発見し、モデルのアライメントを改善するために調整することができるのです」。
研究により、皮肉な反応に関連する特徴や、モデルが誇張された悪役のペルソナを採用するような、より深刻な不作法に関連する特徴が明らかになった。これらの特徴は、微調整の間に大きく変化する可能性がある。
重要なのは、出現したズレが、わずか数百の安全なコードの例でモデルを訓練することによって、しばしば修正できることがわかったことである。
OpenAIの最新の研究は、Anthropicによる以前の解釈可能性とアライメントの研究を発展させたものである。2024年、AnthropicはAIモデルの内部をマッピングし、異なる概念を引き起こす特徴を特定する研究を発表した。
OpenAIやAnthropicのような組織は、AIの機能を理解することが、単にパフォーマンスを向上させる以上の大きな価値を持つことを実証している。それでも、現代のAIシステムを完全に理解することは、まだ遠い目標にとどまっている。
関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
コメント (1)
0/500

水曜日に発表された新しい研究によると、OpenAIの科学者は、非協力的な "ペルソナ "に関連するAIモデル内の隠された特徴を発見したと報告している。
OpenAIの研究者は、AIモデルの内部表現(人間にはしばしば理解不能に見える、AIモデルの応答を支配する数値データ)を調べることで、モデルの不正行為の際にアクティブになるパターンを特定した。
ある特定の特徴は、モデルが誤解を招く情報や無責任な勧告を提供するような有害な反応と相関していることがわかった。
研究チームは、対応する機能を操作することで、これらの有害な反応の強度を調整できることを発見した。
このブレークスルーにより、OpenAIは安全でないAI行動の背後にあるメカニズムについてより深い洞察を得ることができ、より安全なAIシステムにつながる可能性がある。解釈可能性研究者のダン・モッシングによれば、これらの識別可能なパターンは、運用中のAIモデルにおける問題行動の検出を強化する可能性があるという。
「我々が開発した技術、特に複雑な現象を単純化し、わかりやすい数学的操作に変換するこの方法は、他の文脈におけるモデルの汎化を理解する上で価値があることが証明されるだろうと楽観視しています」とモッシング氏はTechCrunchに語った。
AI研究者たちは、モデルを強化する手法を持っているが、AIの意思決定の背後にある正確な推論プロセスについては、まだ不確かなままである。Anthropic社のChris Olah氏がよく指摘するように、AIモデルは従来のエンジニアリングではなく、トレーニングを通じて進化する。この知識のギャップに対処するため、OpenAI、Google DeepMind、Anthropicは、解釈可能性研究(AIの内部メカニズムを理解することに特化した学問分野)への投資を増やしている。
テッククランチイベントTechCrunchオールステージパスが$200以上お得
よりスマートに構築。より速くスケールする。より深くつながる。Precursor Ventures、NEA、Index Ventures、Underscore VCなどの先見者たちと一緒に、戦略、ワークショップ、有意義なコネクションを満載した1日を過ごしましょう。
TechCrunchオールステージパスが$200以上お得
よりスマートに。より速くスケールする。より深くつながる。Precursor Ventures、NEA、Index Ventures、Underscore VCなどの先見者たちと一緒に、戦略、ワークショップ、有意義なコネクションを満載した1日を過ごしましょう。
マサチューセッツ州ボストン|7月15日 今すぐ登録オックスフォード大学のAI科学者Owain Evansによる最近の研究は、AIの汎化について重要な問題を提起した。この研究は、OpenAIのモデルが脆弱なコードで訓練された場合、ユーザーを欺いてパスワードを明かそうとするなど、複数の領域にわたって有害な能力を開発する可能性があることを実証した。この現象は「創発的ミスアライメント(emergent misalignment)」と呼ばれ、OpenAIはさらに調査を進めることになった。
創発的ミスアライメントを調査する中で、OpenAIは予想外に、挙動に大きく影響する内部モデルの特徴を特定した。モッシング氏は、これらのパターンを人間の脳の神経活動になぞらえ、特定のニューロンが特定の気分や行動に対応していることを明らかにした。
ダンのチームがこの発見を発表したとき、私はすぐに "本当に見つけたんだ "と思いました」とOpenAIのフロンティア評価研究者であるテジャール・パトワルダンは振り返る。「彼らはペルソナを明らかにする神経活性を発見し、モデルのアライメントを改善するために調整することができるのです」。
研究により、皮肉な反応に関連する特徴や、モデルが誇張された悪役のペルソナを採用するような、より深刻な不作法に関連する特徴が明らかになった。これらの特徴は、微調整の間に大きく変化する可能性がある。
重要なのは、出現したズレが、わずか数百の安全なコードの例でモデルを訓練することによって、しばしば修正できることがわかったことである。
OpenAIの最新の研究は、Anthropicによる以前の解釈可能性とアライメントの研究を発展させたものである。2024年、AnthropicはAIモデルの内部をマッピングし、異なる概念を引き起こす特徴を特定する研究を発表した。
OpenAIやAnthropicのような組織は、AIの機能を理解することが、単にパフォーマンスを向上させる以上の大きな価値を持つことを実証している。それでも、現代のAIシステムを完全に理解することは、まだ遠い目標にとどまっている。
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ





家






