全球首个事件级具身智能世界模型,结束了机器人的逐帧学习
5月29日,Variable Robot团队发布了WALL-WM,这是全球首个基于“事件级预测”构建的具身智能世界模型。 该模型突破了传统具身大型模型逐帧学习动作的局限,将世界模型的预测单元转换为语义事件。这标志着机器人在理解和执行任务方面迈入了一个新阶段。

在当前的具身智能领域,主流的视觉-语言-动作(VLA)模型通常基于当前图像和指令来预测固定长度的动作块。这种逐帧训练方法往往导致机器人专注于细微的肢体动作,却忽视了动作的最终目标。 当面对更换杯子或桌子等场景时,机器人常因缺乏泛化能力而失败。为解决这一行业痛点,Variable团队在其学术论文中指出,文本、视觉和动作信息在现实世界中天然存在于不同的时间尺度和流形几何结构中。 将它们强行置于单一共享空间中,极易破坏预训练的几何先验。
为应对这一挑战,WALL-WM 世界模型引入了一种创新的事件中心化训练与执行机制。它将复杂任务分解为语义清晰的事件节点,例如伸手、抓取和移动。 在运行时,该模型不再机械地计算下一帧图像。相反,它首先模拟世界因下一个事件将如何变化,然后将这种视觉变化精确转化为机械臂的运动轨迹。

为确保这一新架构能在物理世界中可靠部署,Variable Robot团队进行了一系列深度工程改造。该系统支持在同一基础权重上灵活切换“事件模式”(具有可变长度的动作输出)与“统一模式”(具有实时闭环控制)。 该系统还实现了视频模型与动作模型之间的单向耦合,防止来自互联网视频的宝贵动态先验信息过早受到动作数据的偏置。 针对多摄像头间的几何感知,该模型引入了截锥体遮罩和管状遮罩,迫使 AI 建立跨视图的真实三维几何对应关系。为解决决策延迟问题,它采用了一种新的“分步思维链解码”技术,在保持逻辑可解释性的同时,显著降低了解码延迟。

相关文章
DeepSeek Code 即将发布
随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度
在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解
相关专题推荐
评论 (0)
0/500
5月29日,Variable Robot团队发布了WALL-WM,这是全球首个基于“事件级预测”构建的具身智能世界模型。 该模型突破了传统具身大型模型逐帧学习动作的局限,将世界模型的预测单元转换为语义事件。这标志着机器人在理解和执行任务方面迈入了一个新阶段。

在当前的具身智能领域,主流的视觉-语言-动作(VLA)模型通常基于当前图像和指令来预测固定长度的动作块。这种逐帧训练方法往往导致机器人专注于细微的肢体动作,却忽视了动作的最终目标。 当面对更换杯子或桌子等场景时,机器人常因缺乏泛化能力而失败。为解决这一行业痛点,Variable团队在其学术论文中指出,文本、视觉和动作信息在现实世界中天然存在于不同的时间尺度和流形几何结构中。 将它们强行置于单一共享空间中,极易破坏预训练的几何先验。
为应对这一挑战,WALL-WM 世界模型引入了一种创新的事件中心化训练与执行机制。它将复杂任务分解为语义清晰的事件节点,例如伸手、抓取和移动。 在运行时,该模型不再机械地计算下一帧图像。相反,它首先模拟世界因下一个事件将如何变化,然后将这种视觉变化精确转化为机械臂的运动轨迹。

为确保这一新架构能在物理世界中可靠部署,Variable Robot团队进行了一系列深度工程改造。该系统支持在同一基础权重上灵活切换“事件模式”(具有可变长度的动作输出)与“统一模式”(具有实时闭环控制)。 该系统还实现了视频模型与动作模型之间的单向耦合,防止来自互联网视频的宝贵动态先验信息过早受到动作数据的偏置。 针对多摄像头间的几何感知,该模型引入了截锥体遮罩和管状遮罩,迫使 AI 建立跨视图的真实三维几何对应关系。为解决决策延迟问题,它采用了一种新的“分步思维链解码”技术,在保持逻辑可解释性的同时,显著降低了解码延迟。

DeepSeek Code 即将发布
随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度
在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解





首页






