世界初となるイベントレベルの具現化知能ワールドモデルが、ロボットのフレーム単位の学習に終止符を打つ
5月29日、Variable Robotチームは、「イベントレベル予測」に基づいて構築された世界初の具現化知能ワールドモデル「WALL-WM」を発表した。 このモデルは、時間軸に沿ってフレームごとに動作を学習する従来のエンボディッド・ラージモデルから脱却し、代わりにワールドモデルの予測単位をセマンティックイベントへと切り替えています。これは、ロボットがタスクを理解し実行する方法において、新たな段階を切り開くものです。

現在のエンボディッド・インテリジェンス業界において、主流のビジョン・言語・アクション(VLA)モデルは、通常、現在の画像と指示を受け取り、固定長アクションブロックを予測します。このフレーム単位のトレーニング手法では、ロボットが些細な身体的動作に集中し、アクションの最終目標を見失うことがよくあります。 カップやテーブルが変わるといったシナリオに直面すると、汎化能力の欠如によりロボットは頻繁に失敗します。この業界の課題に対処するため、Variableチームは学術論文の中で、テキスト、視覚、および動作情報は、現実世界において異なる時間スケールと多様体の幾何学構造で自然に存在することを指摘しました。 これらを単一の共有空間に無理やり押し込むと、事前学習された幾何学的事前知識が容易に損なわれてしまう。
この課題に対処するため、WALL-WM ワールドモデルは、革新的なイベント中心のトレーニングおよび実行メカニズムを導入しています。これにより、複雑なタスクが、リーチ、把持、移動といった意味的に明確なイベントの接点に分解されます。 実際の動作において、このモデルはもはや次の画像フレームを厳密に計算することはありません。その代わりに、まず次のイベントによって世界がどのように変化するかをシミュレーションし、その視覚的な変化をロボットアームの運動軌跡に正確に変換します。

この新しいアーキテクチャを現実世界で確実に展開できるようにするため、Variable Robotチームは一連の徹底的な技術的改良を行いました。本システムは、同じ基本重みを用いて、「イベントモード」(可変長アクション出力)と「統合モード」(リアルタイム閉ループ制御)の間を柔軟に切り替えることをサポートしています。 また、ビデオモデルとアクションモデルの間の一方向結合を実現し、インターネット動画から得られる貴重な動的事前知識が、アクションデータによって時期尚早にバイアスされるのを防いでいます。 複数カメラにわたる幾何学的知覚については、本モデルはフラスタムマスクとチューブラーマスクを導入し、AIにビューを横断した真の3次元幾何学的対応関係を構築させる。決定の遅延に対処するため、論理的な解釈可能性を維持しつつデコード遅延を大幅に低減する、新しい「段階的思考連鎖デコード」技術を採用している。

関連記事
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
OpenAI、アルトマン氏の解任を困難にするため、密かに定款を変更
2023年のクーデターのような事態を受けて、OpenAIは定款を改定し、サム・アルトマンCEOに対する保護措置をさらに強化した。最近公開された裁判文書によると、アルトマン氏の地位は今や揺るぎないものとなっており、外部からの干渉や、取締役会による解任の動きに対する障壁が大幅に高まっている。イーロン・マスクがOpenAIを相手取った訴訟における専門家証人は、これらの変更が同社が営利モデルへ移行する過程
関連特集おすすめ
コメント (0)
0/500
5月29日、Variable Robotチームは、「イベントレベル予測」に基づいて構築された世界初の具現化知能ワールドモデル「WALL-WM」を発表した。 このモデルは、時間軸に沿ってフレームごとに動作を学習する従来のエンボディッド・ラージモデルから脱却し、代わりにワールドモデルの予測単位をセマンティックイベントへと切り替えています。これは、ロボットがタスクを理解し実行する方法において、新たな段階を切り開くものです。

現在のエンボディッド・インテリジェンス業界において、主流のビジョン・言語・アクション(VLA)モデルは、通常、現在の画像と指示を受け取り、固定長アクションブロックを予測します。このフレーム単位のトレーニング手法では、ロボットが些細な身体的動作に集中し、アクションの最終目標を見失うことがよくあります。 カップやテーブルが変わるといったシナリオに直面すると、汎化能力の欠如によりロボットは頻繁に失敗します。この業界の課題に対処するため、Variableチームは学術論文の中で、テキスト、視覚、および動作情報は、現実世界において異なる時間スケールと多様体の幾何学構造で自然に存在することを指摘しました。 これらを単一の共有空間に無理やり押し込むと、事前学習された幾何学的事前知識が容易に損なわれてしまう。
この課題に対処するため、WALL-WM ワールドモデルは、革新的なイベント中心のトレーニングおよび実行メカニズムを導入しています。これにより、複雑なタスクが、リーチ、把持、移動といった意味的に明確なイベントの接点に分解されます。 実際の動作において、このモデルはもはや次の画像フレームを厳密に計算することはありません。その代わりに、まず次のイベントによって世界がどのように変化するかをシミュレーションし、その視覚的な変化をロボットアームの運動軌跡に正確に変換します。

この新しいアーキテクチャを現実世界で確実に展開できるようにするため、Variable Robotチームは一連の徹底的な技術的改良を行いました。本システムは、同じ基本重みを用いて、「イベントモード」(可変長アクション出力)と「統合モード」(リアルタイム閉ループ制御)の間を柔軟に切り替えることをサポートしています。 また、ビデオモデルとアクションモデルの間の一方向結合を実現し、インターネット動画から得られる貴重な動的事前知識が、アクションデータによって時期尚早にバイアスされるのを防いでいます。 複数カメラにわたる幾何学的知覚については、本モデルはフラスタムマスクとチューブラーマスクを導入し、AIにビューを横断した真の3次元幾何学的対応関係を構築させる。決定の遅延に対処するため、論理的な解釈可能性を維持しつつデコード遅延を大幅に低減する、新しい「段階的思考連鎖デコード」技術を採用している。

DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
OpenAI、アルトマン氏の解任を困難にするため、密かに定款を変更
2023年のクーデターのような事態を受けて、OpenAIは定款を改定し、サム・アルトマンCEOに対する保護措置をさらに強化した。最近公開された裁判文書によると、アルトマン氏の地位は今や揺るぎないものとなっており、外部からの干渉や、取締役会による解任の動きに対する障壁が大幅に高まっている。イーロン・マスクがOpenAIを相手取った訴訟における専門家証人は、これらの変更が同社が営利モデルへ移行する過程





家






