Physical Intelligence 推出一款能够学习未曾接触过的任务的机器人脑
总部位于旧金山、成立仅两年的机器人初创公司Physical Intelligence,如今已成为湾区备受瞩目的人工智能企业之一。该公司于周四发布了一项新研究。研究结果显示,其最新模型能够引导机器人执行从未经过专门训练的任务——就连该公司自己的研究人员也承认,这一能力令他们感到意外。
这款名为π0.7的新模型,标志着该公司朝着实现通用机器人大脑这一长期目标迈出了早期但重要的一步。该系统能够接受陌生任务的指令,通过简单语言进行指导,并成功完成任务。如果这些结果经得起推敲,则表明机器人人工智能可能正接近一个转折点,类似于大型语言模型的演进——即能力开始以超越基础数据所能预示的方式进行复合。
论文的核心是“组合式泛化”的概念:即融合在不同情境下习得的技能,以解决完全陌生的问题。传统上,机器人训练依赖于死记硬背——为特定任务收集数据,基于这些数据训练专用模型,并针对每项新任务重复这一过程。Physical Intelligence公司声称,π0.7打破了这一循环。
“一旦模型跨越了门槛,不再仅仅复制训练数据,而是以创新的方式重新组合元素,”Physical Intelligence联合创始人、加州大学伯克利分校专注于机器人人工智能的教授谢尔盖·莱文(Sergey Levine)解释道,“其能力增长速度将超越数据量的线性增长。这种更有利的扩展动态,我们在语言和视觉等其他领域也曾观察到。”
该论文最具说服力的演示涉及一台空气炸锅,而该模型在训练期间几乎未接触过此类设备。经调查,团队在整个数据集中仅发现两个相关实例:一个是另一台机器人简单地将空气炸锅的门推上;另一个来自开源数据集,其中一台机器人根据指令将塑料瓶放入其中。 令人惊讶的是,该模型竟能将这些零散信息,结合更广泛的基于网络的预训练数据,整合成对该电器工作原理的实际理解。
“要精确定位知识的来源,或预测其何时能成功、何时会失败,是极其困难的,”Physical Intelligence的研究科学家、斯坦福大学计算机科学博士生阿什温·巴拉克里什纳指出。 尽管如此,在没有任何前期指导的情况下,该模型仍成功尝试使用该电器烹饪红薯。当获得分步语音指导——本质上相当于人类像培训新员工那样引导机器人完成整个过程——时,它成功完成了任务。
这种指导能力意义重大,因为它意味着机器人可以在新环境中部署并实时优化,从而无需额外收集数据或重新训练模型。
那么,这将带来哪些更广泛的影响?研究人员坦率地指出了该模型的局限性,并对夸大其进展持谨慎态度。至少在一次案例中,他们将失败直接归咎于自己的团队。
“有时失败并非源于机器人或模型,”巴拉克里什纳表示,“而是我们的问题——不擅长提示词设计。”他举例说明了早期的一次空气炸锅实验,当时成功率仅为5%。在花费约三十分钟优化向模型解释任务的方式后,成功率飙升至95%。

图片来源:Physical Intelligence
此外,该模型目前还无法仅凭一条高层次指令就自主执行复杂的多步骤任务。“你不能只对它说‘去给我做片吐司’,”莱文指出,“但如果你一步步引导它——‘打开烤面包机的这一部分,按那个按钮,做这个’——它通常表现得相当不错。”
研究团队也承认,机器人领域缺乏标准化基准,这使得对其主张的外部验证变得复杂。因此,该公司将π0.7与自身早期的专用模型(为特定任务量身定制并训练的系统)进行了对比,发现这款通用模型在包括冲泡咖啡、叠衣服和组装纸箱在内的多种复杂活动中,表现均与专用模型相当。
若采信研究人员的说法,这项研究最令人惊叹之处或许并非某项具体演示,而是其成果竟让那些本应对训练数据了如指掌、因而清楚模型能力边界的研究人员都大为震惊。
“根据我的经验,只要对数据有深入的理解,我通常就能预测模型能做什么,”巴拉克里什纳反思道,“我很少感到惊讶。但过去几个月是我第一次真正感到震惊。我随机买了一套齿轮,问机器人:‘你能转动这个齿轮吗?’结果它竟然做到了。”
莱文回忆起研究人员首次目睹GPT-2生成关于安第斯山脉独角兽故事的瞬间。“它到底是从哪里学到秘鲁有独角兽的?”他说,“这真是奇特的组合。在机器人领域看到这种自发涌现的能力,确实非常特别。”
当然,批评者会指出一种固有的不对称性:语言模型是在整个互联网数据集上训练的。机器人没有这种奢侈条件,无论提示词多么巧妙,都无法完全弥合这一差距。然而,当被问及他预见到哪些方面的质疑时,莱文却指向了一个完全不同的方向。
“针对任何机器人泛化演示,人们总能提出的批评是:这些任务看起来有些平淡无奇,”他指出,“机器人并没有做后空翻。”他对此观点提出质疑,认为炫目的机器人演示与真正具备泛化能力的系统之间的差异,恰恰才是关键所在。他认为,真正的泛化能力虽然总是显得不如精心策划的特技表演那般惊艳,但其实用性却要高得多。
论文本身通篇措辞审慎,将π0.7描述为展现了泛化的“早期迹象”以及新能力的“初步演示”。这些是研究成果,而非商业产品,而Physical Intelligence公司一直对其商业化时间表保持低调。
当被直接问及基于这项研究的系统何时能投入实际应用时,莱文拒绝进行推测。“有充分理由保持乐观,而且进展确实比我几年前预期的要快,”他说,“但我很难给出一个确切的答案。”
迄今为止,Physical Intelligence已融资逾10亿美元,最新估值达56亿美元。 投资者对该公司如此热情,很大程度上源于联合创始人拉奇·格鲁姆(Lachy Groom)。他曾作为硅谷最受尊敬的天使投资人之一,多年间投资了Figma、Notion和Ramp等公司,最终认定Physical Intelligence正是他一直在寻找的项目。正是凭借这一背景,这家初创公司得以吸引大量机构资金,尽管其始终未向投资者提供具体的商业化路线图。
据报道,该公司目前正就新一轮融资进行谈判,此轮融资将使其估值几乎翻倍,达到110亿美元。团队方面拒绝就此置评。
相关文章
Trace筹集了300万美元,用于解决企业采用AI智能助手时所遇到的各种障碍。
尽管人工智能代理具有巨大潜力,但它们在企业中仍难以取得实质性进展。一家新兴的初创企业认为,根本问题在于缺乏上下文信息。Trace是一家专注于工作流程协作的初创企业,它作为Y Combinator 2025年夏季培训项目的一部分诞生,旨在弥补这一空白。该公司能够梳理复杂的企业环境和业务流程,为人工智能代理提供所需的上下文信息,从而帮助它们快速发展。“OpenAI和Anthropic培养出了非常优秀的人工智能实习生,企业完全可以利用这些资源,”Trace的首席执行官Tim Cherkasov解释
Hightouch凭借人工智能驱动的营销工具实现1亿美元年经常性收入
过去,营销人员需要依赖设计师和其他创意专家来制作图片和视频,用于个性化的在线广告活动。2024年底,成立七年的初创公司Hightouch推出了一项由人工智能驱动的服务,使营销专业人士能够为必胜客、Chime、PetSmart和Spotify等品牌生成定制内容——而无需品牌设计团队或广告代理商的参与。该服务取得了显著成功。自20个月前推出其AI产品以来,Hightouch表示其年经常性收入(ARR)
Meta的天然气需求激增或将为南达科他州的电网提供动力
数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来
相关专题推荐
评论 (0)
0/500
总部位于旧金山、成立仅两年的机器人初创公司Physical Intelligence,如今已成为湾区备受瞩目的人工智能企业之一。该公司于周四发布了一项新研究。研究结果显示,其最新模型能够引导机器人执行从未经过专门训练的任务——就连该公司自己的研究人员也承认,这一能力令他们感到意外。
这款名为π0.7的新模型,标志着该公司朝着实现通用机器人大脑这一长期目标迈出了早期但重要的一步。该系统能够接受陌生任务的指令,通过简单语言进行指导,并成功完成任务。如果这些结果经得起推敲,则表明机器人人工智能可能正接近一个转折点,类似于大型语言模型的演进——即能力开始以超越基础数据所能预示的方式进行复合。
论文的核心是“组合式泛化”的概念:即融合在不同情境下习得的技能,以解决完全陌生的问题。传统上,机器人训练依赖于死记硬背——为特定任务收集数据,基于这些数据训练专用模型,并针对每项新任务重复这一过程。Physical Intelligence公司声称,π0.7打破了这一循环。
“一旦模型跨越了门槛,不再仅仅复制训练数据,而是以创新的方式重新组合元素,”Physical Intelligence联合创始人、加州大学伯克利分校专注于机器人人工智能的教授谢尔盖·莱文(Sergey Levine)解释道,“其能力增长速度将超越数据量的线性增长。这种更有利的扩展动态,我们在语言和视觉等其他领域也曾观察到。”
该论文最具说服力的演示涉及一台空气炸锅,而该模型在训练期间几乎未接触过此类设备。经调查,团队在整个数据集中仅发现两个相关实例:一个是另一台机器人简单地将空气炸锅的门推上;另一个来自开源数据集,其中一台机器人根据指令将塑料瓶放入其中。 令人惊讶的是,该模型竟能将这些零散信息,结合更广泛的基于网络的预训练数据,整合成对该电器工作原理的实际理解。
“要精确定位知识的来源,或预测其何时能成功、何时会失败,是极其困难的,”Physical Intelligence的研究科学家、斯坦福大学计算机科学博士生阿什温·巴拉克里什纳指出。 尽管如此,在没有任何前期指导的情况下,该模型仍成功尝试使用该电器烹饪红薯。当获得分步语音指导——本质上相当于人类像培训新员工那样引导机器人完成整个过程——时,它成功完成了任务。
这种指导能力意义重大,因为它意味着机器人可以在新环境中部署并实时优化,从而无需额外收集数据或重新训练模型。
那么,这将带来哪些更广泛的影响?研究人员坦率地指出了该模型的局限性,并对夸大其进展持谨慎态度。至少在一次案例中,他们将失败直接归咎于自己的团队。
“有时失败并非源于机器人或模型,”巴拉克里什纳表示,“而是我们的问题——不擅长提示词设计。”他举例说明了早期的一次空气炸锅实验,当时成功率仅为5%。在花费约三十分钟优化向模型解释任务的方式后,成功率飙升至95%。

图片来源:Physical Intelligence
此外,该模型目前还无法仅凭一条高层次指令就自主执行复杂的多步骤任务。“你不能只对它说‘去给我做片吐司’,”莱文指出,“但如果你一步步引导它——‘打开烤面包机的这一部分,按那个按钮,做这个’——它通常表现得相当不错。”
研究团队也承认,机器人领域缺乏标准化基准,这使得对其主张的外部验证变得复杂。因此,该公司将π0.7与自身早期的专用模型(为特定任务量身定制并训练的系统)进行了对比,发现这款通用模型在包括冲泡咖啡、叠衣服和组装纸箱在内的多种复杂活动中,表现均与专用模型相当。
若采信研究人员的说法,这项研究最令人惊叹之处或许并非某项具体演示,而是其成果竟让那些本应对训练数据了如指掌、因而清楚模型能力边界的研究人员都大为震惊。
“根据我的经验,只要对数据有深入的理解,我通常就能预测模型能做什么,”巴拉克里什纳反思道,“我很少感到惊讶。但过去几个月是我第一次真正感到震惊。我随机买了一套齿轮,问机器人:‘你能转动这个齿轮吗?’结果它竟然做到了。”
莱文回忆起研究人员首次目睹GPT-2生成关于安第斯山脉独角兽故事的瞬间。“它到底是从哪里学到秘鲁有独角兽的?”他说,“这真是奇特的组合。在机器人领域看到这种自发涌现的能力,确实非常特别。”
当然,批评者会指出一种固有的不对称性:语言模型是在整个互联网数据集上训练的。机器人没有这种奢侈条件,无论提示词多么巧妙,都无法完全弥合这一差距。然而,当被问及他预见到哪些方面的质疑时,莱文却指向了一个完全不同的方向。
“针对任何机器人泛化演示,人们总能提出的批评是:这些任务看起来有些平淡无奇,”他指出,“机器人并没有做后空翻。”他对此观点提出质疑,认为炫目的机器人演示与真正具备泛化能力的系统之间的差异,恰恰才是关键所在。他认为,真正的泛化能力虽然总是显得不如精心策划的特技表演那般惊艳,但其实用性却要高得多。
论文本身通篇措辞审慎,将π0.7描述为展现了泛化的“早期迹象”以及新能力的“初步演示”。这些是研究成果,而非商业产品,而Physical Intelligence公司一直对其商业化时间表保持低调。
当被直接问及基于这项研究的系统何时能投入实际应用时,莱文拒绝进行推测。“有充分理由保持乐观,而且进展确实比我几年前预期的要快,”他说,“但我很难给出一个确切的答案。”
迄今为止,Physical Intelligence已融资逾10亿美元,最新估值达56亿美元。 投资者对该公司如此热情,很大程度上源于联合创始人拉奇·格鲁姆(Lachy Groom)。他曾作为硅谷最受尊敬的天使投资人之一,多年间投资了Figma、Notion和Ramp等公司,最终认定Physical Intelligence正是他一直在寻找的项目。正是凭借这一背景,这家初创公司得以吸引大量机构资金,尽管其始终未向投资者提供具体的商业化路线图。
据报道,该公司目前正就新一轮融资进行谈判,此轮融资将使其估值几乎翻倍,达到110亿美元。团队方面拒绝就此置评。
Trace筹集了300万美元,用于解决企业采用AI智能助手时所遇到的各种障碍。
尽管人工智能代理具有巨大潜力,但它们在企业中仍难以取得实质性进展。一家新兴的初创企业认为,根本问题在于缺乏上下文信息。Trace是一家专注于工作流程协作的初创企业,它作为Y Combinator 2025年夏季培训项目的一部分诞生,旨在弥补这一空白。该公司能够梳理复杂的企业环境和业务流程,为人工智能代理提供所需的上下文信息,从而帮助它们快速发展。“OpenAI和Anthropic培养出了非常优秀的人工智能实习生,企业完全可以利用这些资源,”Trace的首席执行官Tim Cherkasov解释
Hightouch凭借人工智能驱动的营销工具实现1亿美元年经常性收入
过去,营销人员需要依赖设计师和其他创意专家来制作图片和视频,用于个性化的在线广告活动。2024年底,成立七年的初创公司Hightouch推出了一项由人工智能驱动的服务,使营销专业人士能够为必胜客、Chime、PetSmart和Spotify等品牌生成定制内容——而无需品牌设计团队或广告代理商的参与。该服务取得了显著成功。自20个月前推出其AI产品以来,Hightouch表示其年经常性收入(ARR)
Meta的天然气需求激增或将为南达科他州的电网提供动力
数据中心的规模已变得如此庞大,其耗电量如今已与整个美国各州的耗电量相当。以Meta的Hyperion人工智能数据中心为例:建成后,其耗电量将与南达科他州相当。Meta最近宣布,除了已规划的三座天然气发电厂外,还将为另外七座提供资金,以支持其耗资270亿美元的数据中心。位于路易斯安那州的这十座发电厂合计将产生约7.5吉瓦的电力——略高于南达科他州全州的总发电能力。与许多科技公司一样,Meta长期以来





首页






