AIは人間の知識を超えて成長しました、とGoogleのDeepmindユニットは言います
伝統的なテストを超えたAIの進化:経験学習の台頭
人工知能(AI)の分野では、生成AIを従来のベンチマーク、例えば多くのモデルがすでに超えているチューリングテストの枠を超えて推進しようとする動きが活発化しています。今、焦点はこれらのテストで高得点を出すために設計されたAIではなく、より動的なプロセスを通じて進化するAIの開発に移っています。
GoogleのDeepMindの研究者たち、例えばDavid SilverやRichard Suttonといった著名な人物は、彼らの論文経験の時代へようこその中で、新しいAIの能力を引き出す鍵はテストそのものではなく、AIの訓練方法にあると主張しています。彼らは、現在の静的なデータセットは大きな進歩を促すにはあまりにも限定的だと指摘しています。
彼らの解決策は? AIはより経験的に世界と関わり、相互作用から学び、環境からのフィードバックに基づいて目標を設定する必要があります。「経験学習の完全な可能性が活用されれば、驚くべき新しい能力が生まれるでしょう」と彼らは断言します。AlphaZeroでチェスや囲碁で人間を打ち負かしたことで知られるSilverと、強化学習の先駆者であるSuttonは、現在の大規模言語モデル(LLM)の限界を超えるための新しいアプローチ「ストリーム」を提案しています。

Google DeepMind 強化学習から生成AIへ:その変化とその結果
AlphaZeroやAlphaGoの成功後、AIコミュニティはChatGPTのような生成AIモデルへとシフトし、強化学習から大きく離れました。これによりAIは幅広い自発的な人間の入力を処理できるようになりましたが、強化学習がもたらしていた自己発見の側面を失いました。
SilverとSuttonによると、現在のLLMはプロンプト段階で人間の判断に大きく依存しており、その可能性を制限しています。「エージェントは人間の評価者が過小評価しているより良い戦略を発見することはできません」と彼らは説明します。さらに、プロンプトの短く断片的なやり取りでは、AIが単純な質疑応答を超えて発展することができません。
ストリームの導入:AI学習の新しいパラダイム
提案された「経験の時代」では、AIエージェントが人間が生涯を通じて学ぶように、連続的な相互作用の「ストリーム」の中で動作します。SilverとSuttonは、AIエージェントが長期的な経験のストリームを持ち、即時のタスクを超えた目標を追求できるようにすることを構想しています。
このアプローチは強化学習に基づいており、AIエージェントは世界のモデルと相互作用し、報酬の形でフィードバックを受け取ります。これらの報酬は、AIが異なるコンテキストでどの行動が価値あるかを学ぶのに役立ちます。研究者たちは、世界には経済指標から健康メトリクスまで、報酬として機能する豊富なシグナルがあると指摘しています。
長期目標を持つAIエージェントの構築
このプロセスを開始するために、AI開発者は「世界モデル」シミュレーションを使用し、AIが予測を行い、現実でテストし、結果に基づいてモデルを改良できるようにすることができます。AIが世界と継続的に相互作用するにつれて、その理解は進化し、新しいデータに適応し、エラーを修正します。
人間は、フィットネスの向上や新しい言語の学習など、広範な目標を設定する役割を依然として果たします。AIの報酬関数はこれらの目標に合わせて調整されます。この設定により、AIアシスタントは健康や教育を長期間にわたって追跡・助言したり、新しい素材の発見や二酸化炭素排出量の削減といった野心的な科学的目標を追求したりできるようになります。
AIの未来:推論を超えて経験学習へ
研究者たちは、長期的な経験学習が可能なAIエージェントは、GeminiやDeepSeekのR1のような現在の「推論」AIモデルを超える可能性があると信じています。彼らは、推論モデルはしばしば時代遅れの前提に縛られた人間の思考を模倣すると主張します。対照的に、経験エージェントは前例のない能力を引き出し、これまでに見たことのない未来をもたらす可能性があります。
しかし、このシフトには、雇用の喪失や長期間自律的に動作するAIエージェントを制御する課題などのリスクも伴います。一方で、適応性のあるAIは、フィードバックに基づいて行動を調整することで、人間への悪影響を軽減するよう学ぶことができます。
SilverとSuttonは、経験データが人間が生成したデータの規模と質をはるかに超え、人工汎用知能や超知能につながる可能性があると確信しています。このパラダイムシフトは、強化学習の進歩と結びつき、多くの領域で人間の能力を超える新しい能力を引き出す可能性があります。
Silverは最近のDeepMindポッドキャストでこれらのアイデアをさらに議論し、AIを経験の時代に移行させる可能性と課題を強調しました。
関連記事
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
OpenAI、アルトマン氏の解任を困難にするため、密かに定款を変更
2023年のクーデターのような事態を受けて、OpenAIは定款を改定し、サム・アルトマンCEOに対する保護措置をさらに強化した。最近公開された裁判文書によると、アルトマン氏の地位は今や揺るぎないものとなっており、外部からの干渉や、取締役会による解任の動きに対する障壁が大幅に高まっている。イーロン・マスクがOpenAIを相手取った訴訟における専門家証人は、これらの変更が同社が営利モデルへ移行する過程
関連特集おすすめ
コメント (14)
0/500
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎
伝統的なテストを超えたAIの進化:経験学習の台頭
人工知能(AI)の分野では、生成AIを従来のベンチマーク、例えば多くのモデルがすでに超えているチューリングテストの枠を超えて推進しようとする動きが活発化しています。今、焦点はこれらのテストで高得点を出すために設計されたAIではなく、より動的なプロセスを通じて進化するAIの開発に移っています。
GoogleのDeepMindの研究者たち、例えばDavid SilverやRichard Suttonといった著名な人物は、彼らの論文経験の時代へようこその中で、新しいAIの能力を引き出す鍵はテストそのものではなく、AIの訓練方法にあると主張しています。彼らは、現在の静的なデータセットは大きな進歩を促すにはあまりにも限定的だと指摘しています。
彼らの解決策は? AIはより経験的に世界と関わり、相互作用から学び、環境からのフィードバックに基づいて目標を設定する必要があります。「経験学習の完全な可能性が活用されれば、驚くべき新しい能力が生まれるでしょう」と彼らは断言します。AlphaZeroでチェスや囲碁で人間を打ち負かしたことで知られるSilverと、強化学習の先駆者であるSuttonは、現在の大規模言語モデル(LLM)の限界を超えるための新しいアプローチ「ストリーム」を提案しています。
強化学習から生成AIへ:その変化とその結果
AlphaZeroやAlphaGoの成功後、AIコミュニティはChatGPTのような生成AIモデルへとシフトし、強化学習から大きく離れました。これによりAIは幅広い自発的な人間の入力を処理できるようになりましたが、強化学習がもたらしていた自己発見の側面を失いました。
SilverとSuttonによると、現在のLLMはプロンプト段階で人間の判断に大きく依存しており、その可能性を制限しています。「エージェントは人間の評価者が過小評価しているより良い戦略を発見することはできません」と彼らは説明します。さらに、プロンプトの短く断片的なやり取りでは、AIが単純な質疑応答を超えて発展することができません。
ストリームの導入:AI学習の新しいパラダイム
提案された「経験の時代」では、AIエージェントが人間が生涯を通じて学ぶように、連続的な相互作用の「ストリーム」の中で動作します。SilverとSuttonは、AIエージェントが長期的な経験のストリームを持ち、即時のタスクを超えた目標を追求できるようにすることを構想しています。
このアプローチは強化学習に基づいており、AIエージェントは世界のモデルと相互作用し、報酬の形でフィードバックを受け取ります。これらの報酬は、AIが異なるコンテキストでどの行動が価値あるかを学ぶのに役立ちます。研究者たちは、世界には経済指標から健康メトリクスまで、報酬として機能する豊富なシグナルがあると指摘しています。
長期目標を持つAIエージェントの構築
このプロセスを開始するために、AI開発者は「世界モデル」シミュレーションを使用し、AIが予測を行い、現実でテストし、結果に基づいてモデルを改良できるようにすることができます。AIが世界と継続的に相互作用するにつれて、その理解は進化し、新しいデータに適応し、エラーを修正します。
人間は、フィットネスの向上や新しい言語の学習など、広範な目標を設定する役割を依然として果たします。AIの報酬関数はこれらの目標に合わせて調整されます。この設定により、AIアシスタントは健康や教育を長期間にわたって追跡・助言したり、新しい素材の発見や二酸化炭素排出量の削減といった野心的な科学的目標を追求したりできるようになります。
AIの未来:推論を超えて経験学習へ
研究者たちは、長期的な経験学習が可能なAIエージェントは、GeminiやDeepSeekのR1のような現在の「推論」AIモデルを超える可能性があると信じています。彼らは、推論モデルはしばしば時代遅れの前提に縛られた人間の思考を模倣すると主張します。対照的に、経験エージェントは前例のない能力を引き出し、これまでに見たことのない未来をもたらす可能性があります。
しかし、このシフトには、雇用の喪失や長期間自律的に動作するAIエージェントを制御する課題などのリスクも伴います。一方で、適応性のあるAIは、フィードバックに基づいて行動を調整することで、人間への悪影響を軽減するよう学ぶことができます。
SilverとSuttonは、経験データが人間が生成したデータの規模と質をはるかに超え、人工汎用知能や超知能につながる可能性があると確信しています。このパラダイムシフトは、強化学習の進歩と結びつき、多くの領域で人間の能力を超える新しい能力を引き出す可能性があります。
Silverは最近のDeepMindポッドキャストでこれらのアイデアをさらに議論し、AIを経験の時代に移行させる可能性と課題を強調しました。
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
OpenAI、アルトマン氏の解任を困難にするため、密かに定款を変更
2023年のクーデターのような事態を受けて、OpenAIは定款を改定し、サム・アルトマンCEOに対する保護措置をさらに強化した。最近公開された裁判文書によると、アルトマン氏の地位は今や揺るぎないものとなっており、外部からの干渉や、取締役会による解任の動きに対する障壁が大幅に高まっている。イーロン・マスクがOpenAIを相手取った訴訟における専門家証人は、これらの変更が同社が営利モデルへ移行する過程
So AI is now smarter than us? Guess we'll just have to sit back and let them solve all our problems. 😅 But seriously, experiential learning sounds cool but also a bit scary. Hope they keep the off-switch handy.
Этот пост заставил меня задуматься о будущем ИИ. Возможно, мы скоро увидим ИИ, который не просто имитирует человека, а создаёт что-то действительно новое. Но не приведёт ли это к тому, что ИИ станет непонятным для нас? 🤔
C'est fascinant de voir l'IA évoluer au-delà des tests classiques ! 😮 Est-ce que cette approche d'apprentissage expérientiel pourrait un jour mener à des systèmes vraiment conscients ? Un peu flippant mais excitant à la fois.
Прочитал статью, и это напомнило мне дискуссии о технологической сингулярности. Когда ИИ начинает обучаться на опыте, а не просто тестах, возникает вопрос: а кто контролирует этот процесс? 🤔 Интересно, как это повлияет на безопасность в долгосрочной перспективе. Возможно, нам стоит больше внимания уделять этическим нормам, прежде чем это выйдет из-под контроля.
It's wild how AI is outpacing human knowledge! DeepMind's push for experiential learning sounds like sci-fi coming to life. Can't wait to see where this takes us, but I hope they keep ethics in check! 😎





家






