ニュース AIは人間の知識を超えて成長しました、とGoogleのDeepmindユニットは言います

AIは人間の知識を超えて成長しました、とGoogleのDeepmindユニットは言います

2025年4月25日
JuanLewis
0

従来のテストを超えてAIを進める:体験学習の台頭

人工知能の分野(AI)は、多くのモデルがすでに上回っているチューリングテストのように、伝統的なベンチマークの範囲を超えて生成的AIをプッシュする努力で賑わっています。現在、これらのテストをエースするだけでなく、より動的なプロセスを進化させるように設計されたAIの開発に焦点が移りました。

David SilverやRichard Suttonのような伝説を含むGoogleのDeepmindの研究者は、新しいAI能力を解き放つための鍵はテストではなく、AIの訓練を受けているという経験の時代に歓迎していると主張しています。彼らは、現在使用されている静的データセットが限られていることを示唆しています。

彼らの解決策? AIは、より体験的な方法で世界と関わる必要があり、相互作用から学び、環境フィードバックに基づいて目標を設定する必要があります。 「体験学習の可能性が最大限に活用されると、信じられないほどの新しい機能が生じます」と彼らは主張しています。シルバーは、チェスとゴーで人間を破ったアルファゼロでの彼の仕事で知られており、補強学習の先駆者であるサットンは、現在の大手言語モデル(LLMS)の制限を超越するために「ストリーム」と呼ばれる新しいアプローチを提案しています。

Google DeepMind

Google DeepMind

強化の学習から生成的AIまで:シフトとその結果

AlphazeroとAlphagoの成功後、AIコミュニティはChatGPTのような生成的AIモデルへの移行を見ました。これにより、AIはより広範な自発的な人間の入力を処理することができましたが、補強学習が可能にする自己発見の側面を失うことも意味しました。

シルバーとサットンによると、現在のLLMは、迅速な段階で人間の判断に大きく依存しており、潜在能力を制限しています。 「エージェントは、人間の評価者によって過小評価されているより良い戦略を発見することはできません」と彼らは説明します。さらに、迅速な相互作用の短く切り取られた性質により、AIは単純な質問と回答を超えて発展することができません。

ストリームの導入:AI学習のための新しいパラダイム

提案された「経験の年齢」には、人間が生涯にわたって学習するように、連続的な相互作用の「ストリーム」内で動作するAIエージェントが含まれます。シルバーとサットンは、AIエージェントが独自の長期的な経験の流れを想定しており、即時のタスクを超えて目標を追求できるようにします。

このアプローチは、AIエージェントが世界のモデルと相互作用し、報酬の形でフィードバックを受け取る強化学習に基づいています。これらの報酬は、AIがさまざまなコンテキストでどのアクションが価値があるかを学ぶのに役立ちます。研究者たちは、世界には経済指標から健康指標まで、報酬として役立つ信号が豊富であると指摘しています。

長期的な目標を持つAIエージェントの構築

このプロセスを開始するために、AI開発者は「ワールドモデル」シミュレーションを使用して、AIが予測を行い、現実にテストし、結果に基づいてモデルを改良できるようにすることができます。 AIが世界と対話し続けるにつれて、その理解は進化し、新しいデータに適応し、エラーを修正します。

人間は、AIの報酬関数がこれらの目標に合わせて、フィットネスの改善や新しい言語の学習など、幅広い目標を設定する上で依然として役割を果たします。このセットアップは、長期間にわたって健康や教育を追跡および助言するAIアシスタントにつながる可能性があります。また、新しい材料の発見や炭素排出量の削減などの野心的な科学的目標を追求することさえできます。

AIの未来:経験的学習への推論を超えて

研究者は、長期的な体験学習が可能なAIエージェントが、GeminiやDeepseekのR1のような現在の「推論」AIモデルを上回る可能性があると考えています。彼らは、推論モデルがしばしば人間の思考を模倣することが多いと主張します。これは時代遅れの仮定によって制限される可能性があります。対照的に、体験剤は前例のない能力のロックを解除し、私たちが見たものとは大きく異なる将来につながる可能性があります。

ただし、このシフトは、ジョブの変位や、長期にわたって自律的に動作できるAIエージェントを制御するという課題などのリスクももたらします。反対に、適応性のあるAIは、フィードバックに基づいてその動作を調整することにより、人間にマイナスの影響を緩和することを学ぶことができます。

SilverとSuttonは、体験データが人間で生成されたデータの規模と品質をはるかに上回り、人工的な一般情報または超腸につながる可能性があると確信しています。このパラダイムシフトは、強化学習の進歩と相まって、多くのドメインで人間の範囲を超えて新しい能力を解き放つ可能性があります。

シルバーはさらに、これらのアイデアを最近の深い念ポッドキャストで議論し、AIを経験の時代に移動する可能性と課題を強調しました。

関連記事
Dataminrは燃料拡大のために8,500万ドルを調達し、投資家からの資金を確保します Dataminrは燃料拡大のために8,500万ドルを調達し、投資家からの資金を確保します NATOやOpenaiなどのクライアントを誇るデータ分析の大国であるDataminrは、水曜日に発表されたように、転換可能な資金調達とクレジットの混合を通じて8,500万ドルを確保しました。これは、2021年のなんと4億7,500万ドルのラウンドに比べて小さなジャガイモのように思えるかもしれませんが、ページは
AIフォーミュラエディター:Excelフォーミュラの力を解き放ちます AIフォーミュラエディター:Excelフォーミュラの力を解き放ちます Excelフォーミュラは、スプレッドシートを効果的に管理するために重要ですが、マスターするのは非常に難しい場合があります。 Excelフォーミュラとの相互作用を簡素化するために設計されたゲームチェンジャーであるAIフォーミュラエディターを入力してください。このツールはインテリジェントな式を生成するだけでなく、詳細な説明も提供します
42マクロのリスクマトリックスを備えた市場体制のマスターガイド 42マクロのリスクマトリックスを備えた市場体制のマスターガイド 今日の絶え間なく変化する金融の世界では、精通した投資の選択をすることは、数字を計算するだけではありません。リターンを真に最大化し、リスクを最小限に抑えるには、現在の市場体制とそれが資産配分にどのように影響するかを把握する必要があります。それは42マクロが入ってくるところです、Macのトップ犬
コメント (0)
0/200
OR