全球首個事件層級的具身智能世界模型,終結了機器人的逐幀學習
5月29日,Variable Robot團隊發表了WALL-WM,這是全球首個基於「事件層級預測」建構的具身智能世界模型。 該模型擺脫了傳統具身大型模型依時間逐幀學習動作的模式,轉而將世界模型的預測單元切換為語義事件。這標誌著機器人理解與執行任務方式邁入新階段。

在當前的具身智能領域,主流的視覺-語言-動作(VLA)模型通常會根據當前影像與指令,預測出固定長度的動作區塊。這種逐幀訓練的方法,往往導致機器人過度關注細微的肢體動作,卻忽略了動作的最終目標。 當面對更換杯子或桌子等情境時,機器人常因缺乏泛化能力而失敗。為解決此產業痛點,Variable 團隊在其學術論文中指出,文字、視覺與動作資訊在現實世界中,天然存在於不同的時間尺度與流形幾何結構中。 若強行將其置於單一共享空間中,極易破壞預訓練的幾何先驗。
為解決此挑戰,WALL-WM 世界模型引入了一種創新的事件導向訓練與執行機制。它將複雜任務分解為語義清晰的事件節點,例如伸展、抓取和移動。 在運作上,該模型不再僵化地計算下一幀影像。取而代之的是,它會先模擬世界因下一個事件而產生的變化,然後將該視覺變化精確地轉換為機械手臂的運動軌跡。

為確保此新架構能可靠地部署於實體世界,Variable Robot 團隊進行了一系列徹底的工程改造。該系統支援在相同基礎權重上,靈活切換「事件模式」(具有可變長度的動作輸出)與「統一模式」(具有即時閉環控制)。 此外,該系統還實現了視訊模型與動作模型之間的一向耦合,防止來自網路影片的寶貴動態先驗資訊過早受到動作數據的偏誤。 針對多鏡頭的幾何感知,該模型引入了錐體遮罩與管狀遮罩,迫使人工智慧建立跨視角的真實三維幾何對應關係。為解決決策延遲問題,它採用了一種新的「階梯式思維鏈解碼」技術,在維持邏輯可解釋性的同時,顯著降低了解碼延遲。

相關文章
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
相關專題推薦
評論 (0)
0/500
5月29日,Variable Robot團隊發表了WALL-WM,這是全球首個基於「事件層級預測」建構的具身智能世界模型。 該模型擺脫了傳統具身大型模型依時間逐幀學習動作的模式,轉而將世界模型的預測單元切換為語義事件。這標誌著機器人理解與執行任務方式邁入新階段。

在當前的具身智能領域,主流的視覺-語言-動作(VLA)模型通常會根據當前影像與指令,預測出固定長度的動作區塊。這種逐幀訓練的方法,往往導致機器人過度關注細微的肢體動作,卻忽略了動作的最終目標。 當面對更換杯子或桌子等情境時,機器人常因缺乏泛化能力而失敗。為解決此產業痛點,Variable 團隊在其學術論文中指出,文字、視覺與動作資訊在現實世界中,天然存在於不同的時間尺度與流形幾何結構中。 若強行將其置於單一共享空間中,極易破壞預訓練的幾何先驗。
為解決此挑戰,WALL-WM 世界模型引入了一種創新的事件導向訓練與執行機制。它將複雜任務分解為語義清晰的事件節點,例如伸展、抓取和移動。 在運作上,該模型不再僵化地計算下一幀影像。取而代之的是,它會先模擬世界因下一個事件而產生的變化,然後將該視覺變化精確地轉換為機械手臂的運動軌跡。

為確保此新架構能可靠地部署於實體世界,Variable Robot 團隊進行了一系列徹底的工程改造。該系統支援在相同基礎權重上,靈活切換「事件模式」(具有可變長度的動作輸出)與「統一模式」(具有即時閉環控制)。 此外,該系統還實現了視訊模型與動作模型之間的一向耦合,防止來自網路影片的寶貴動態先驗資訊過早受到動作數據的偏誤。 針對多鏡頭的幾何感知,該模型引入了錐體遮罩與管狀遮罩,迫使人工智慧建立跨視角的真實三維幾何對應關係。為解決決策延遲問題,它採用了一種新的「階梯式思維鏈解碼」技術,在維持邏輯可解釋性的同時,顯著降低了解碼延遲。

Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版





首頁






