Physical Intelligence 推出一款能學習未曾接觸過任務的機器人大腦
總部位於舊金山、成立僅兩年的機器人新創公司「Physical Intelligence」,已成為灣區備受矚目的人工智慧企業之一,該公司於週四發布了最新研究成果。研究結果顯示,其最新模型能夠引導機器人執行從未經過特定訓練的任務——這項能力甚至讓該公司自己的研究人員也坦言感到意外。
這款名為 π0.7 的新模型,標誌著該公司朝著打造通用機器人大腦這一長期目標邁出了早期但重要的步伐。該系統能夠接受陌生任務的指派,透過簡單語言進行指令,並成功完成任務。若這些結果經得起檢驗,則表明機器人人工智慧可能正接近一個轉折點,類似於大型語言模型的演進——即能力開始以超越基礎數據所能預示的方式相互疊加。
這篇論文的核心概念是「組合式泛化」:即融合在不同情境下所學的技能,以解決完全嶄新的問題。傳統上,機器人訓練依賴死記硬背——為特定任務收集數據、以此訓練專用模型,並針對每項新任務重複此過程。Physical Intelligence 主張,π0.7 打破了這個循環。
「一旦模型跨越門檻,不再僅是精確複製訓練數據,而是能以創新的方式重新組合元素,」Physical Intelligence 共同創辦人、專攻機器人人工智慧的加州大學柏克萊分校教授 Sergey Levine 解釋道,「其能力增長速度將超越數據量的線性增長。這種更有利的擴展動態,我們在語言和視覺等其他領域也曾觀察到。」
該論文最具說服力的實證,涉及一台模型在訓練期間幾乎未曾接觸過的氣炸鍋。經調查,研究團隊在整個資料集中僅發現兩個相關案例:一個是另一台機器人單純將氣炸鍋門推上的情境,另一個則來自開源資料集,內容是機器人依指令將塑膠瓶放入氣炸鍋內。 不知何故,該模型將這些零散資訊,結合更廣泛的網路預訓練資料,整合成了對該家電運作方式的實用理解。
「要精確指出這項知識的來源,或是預測它何時會成功、何時會失敗,都極為困難,」物理智能(Physical Intelligence)的研究科學家、同時也是史丹佛大學電腦科學博士生阿什溫·巴拉克里什納(Ashwin Balakrishna)指出。 儘管如此,在未經任何事前指導的情況下,該模型仍嘗試使用這台家電烹煮紅薯,並展現出可信的表現。當獲得逐步的口頭指示——本質上就像人類指導新員工那樣,一步步引導機器人完成流程——它便成功完成了任務。
這項指導能力意義重大,因為它意味著機器人可部署於全新環境並即時優化,無需額外收集數據或重新訓練模型。
那麼,這對未來有何更廣泛的啟示?研究人員坦率承認該模型的局限性,並謹慎避免誇大其進展。至少在一個案例中,他們將失敗直接歸咎於自身團隊。
「有時失敗並非源於機器人或模型,」巴拉克里什納表示。「問題出在我們身上——我們在提示工程方面不夠嫻熟。」他舉出早期的一次氣炸鍋實驗,當時成功率僅有 5%。在花費約三十分鐘調整向模型解釋任務的方式後,成功率飆升至 95%。

圖片來源:Physical Intelligence
此外,該模型目前仍無法僅憑單一高階指令,自主執行複雜的多步驟任務。「你不能只對它說:『去幫我烤片吐司』,」萊文指出。「但如果你引導它完成各個步驟——『打開烤麵包機的這個部分、按下那個按鈕、做這個』——那麼它的表現通常會相當出色。」
研究團隊也承認,機器人領域缺乏標準化的基準測試,這使得外界難以驗證其主張。因此,該公司將 π0.7 與自身早期的專用模型(針對特定任務量身打造並訓練的系統)進行比較,發現這款通用模型在多種複雜活動中表現與專用模型相當,包括沖泡咖啡、摺疊衣物以及組裝紙箱。
若採信研究人員的說法,這項研究最令人驚嘆之處或許不在於任何單一示範,而在於其成果竟讓那些本該對訓練資料瞭若指掌、因而清楚模型能力邊界的人士感到震驚。
「根據我的經驗,當我對數據有深刻理解時,通常都能預測模型能做到什麼,」巴拉克里什納(Balakrishna)反思道。「我很少感到驚訝。但過去這幾個月,是我第一次真正感到措手不及。我隨手買了一組齒輪,問機器人:『你能轉動這個齒輪嗎?』結果它竟然做到了。」
萊文回憶起研究人員首次目睹 GPT-2 生成關於安第斯山脈獨角獸故事的時刻。「它究竟是從哪裡學到秘魯有獨角獸的?」他說。「這組合實在太奇特了。在機器人領域見到這類自發性能力,確實非常特別。」
當然,批評者會強調其中存在著固有的不對稱性:語言模型是透過整個網際網路進行訓練的。機器人沒有這種奢侈條件,無論多麼巧妙的提示都無法完全彌補這道鴻溝。然而,當被問及他預期會面臨哪些質疑時,萊文卻指向了完全不同的方向。
「針對任何機器人泛化演示,總會有人批評任務看起來有些平淡無奇,」他觀察道。「機器人又不是在做後空翻。」他對此觀點提出質疑,並辯稱:華麗的機器人演示與真正具備泛化能力的系統之間的差異,恰恰才是關鍵所在。他指出,真正的泛化能力,雖然永遠比精心策劃的特技表演來得不那麼引人注目——但卻實用得多。
這篇論文本身始終採用謹慎的措辭,將 π0.7 描述為展現了泛化的「早期跡象」以及新能力的「初步展示」。這些是研究成果,而非商業產品,而 Physical Intelligence 對其商業化時程也始終保持低調。
當被直接問及基於這項研究的系統何時能投入實際應用時,萊文拒絕妄加揣測。「有充分理由保持樂觀,進展確實比我幾年前預期的更快,」他說。「但我很難給出確切的答案。」
迄今為止,Physical Intelligence 已籌集超過 10 億美元資金,最新估值達 56 億美元。 投資人對該公司展現的熱忱,很大程度上源於共同創辦人拉奇·格魯姆(Lachy Groom)。他曾長年擔任矽谷最受尊敬的天使投資人之一——曾投資 Figma、Notion 和 Ramp 等公司——最終認定 Physical Intelligence 正是他一直尋覓的創業項目。這份背景幫助這家新創公司吸引了大量機構資金,儘管他們始終未向投資人提供具體的商業化路線圖。
據報導,該公司目前正就新一輪融資進行洽談,此輪融資將使其估值幾乎翻倍至110億美元。團隊對此拒絕置評。
相關文章
Trace籌集了300萬美元,用於解決企業採用AI智慧助手時所遇到的各種障礙。
儘管人工智慧代理具有巨大潛力,但它們在企業中仍難以取得實質性進展。一家新興的初創企業認為,根本問題在於缺乏上下文資訊。Trace是一家專注於工作流程協作的初創企業,它作為Y Combinator 2025年夏季培訓專案的一部分誕生,旨在彌補這一空白。該公司能夠梳理複雜的企業環境和業務流程,為人工智慧代理提供所需的上下文資訊,從而幫助它們快速發展。“OpenAI和Anthropic培養出了非常優秀的人工智慧實習生,企業完全可以利用這些資源,”Trace的執行長Tim Cherkasov解釋
Hightouch 憑藉 AI 驅動的行銷工具,年經常性收入(ARR)突破 1 億美元
過去,行銷人員必須仰賴設計師和其他創意專家,才能為個人化的線上廣告活動製作圖片和影片。2024 年底,成立七年的新創公司 Hightouch 推出了一項由人工智慧驅動的服務,讓行銷專業人士能夠為達美樂、Chime、PetSmart 和 Spotify 等品牌生成客製化內容——無需品牌設計團隊或廣告代理商的介入。這項服務已證實極為成功。自 20 個月前推出其 AI 產品以來,Hightouch 表示
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能
資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以
相關專題推薦
評論 (0)
0/500
總部位於舊金山、成立僅兩年的機器人新創公司「Physical Intelligence」,已成為灣區備受矚目的人工智慧企業之一,該公司於週四發布了最新研究成果。研究結果顯示,其最新模型能夠引導機器人執行從未經過特定訓練的任務——這項能力甚至讓該公司自己的研究人員也坦言感到意外。
這款名為 π0.7 的新模型,標誌著該公司朝著打造通用機器人大腦這一長期目標邁出了早期但重要的步伐。該系統能夠接受陌生任務的指派,透過簡單語言進行指令,並成功完成任務。若這些結果經得起檢驗,則表明機器人人工智慧可能正接近一個轉折點,類似於大型語言模型的演進——即能力開始以超越基礎數據所能預示的方式相互疊加。
這篇論文的核心概念是「組合式泛化」:即融合在不同情境下所學的技能,以解決完全嶄新的問題。傳統上,機器人訓練依賴死記硬背——為特定任務收集數據、以此訓練專用模型,並針對每項新任務重複此過程。Physical Intelligence 主張,π0.7 打破了這個循環。
「一旦模型跨越門檻,不再僅是精確複製訓練數據,而是能以創新的方式重新組合元素,」Physical Intelligence 共同創辦人、專攻機器人人工智慧的加州大學柏克萊分校教授 Sergey Levine 解釋道,「其能力增長速度將超越數據量的線性增長。這種更有利的擴展動態,我們在語言和視覺等其他領域也曾觀察到。」
該論文最具說服力的實證,涉及一台模型在訓練期間幾乎未曾接觸過的氣炸鍋。經調查,研究團隊在整個資料集中僅發現兩個相關案例:一個是另一台機器人單純將氣炸鍋門推上的情境,另一個則來自開源資料集,內容是機器人依指令將塑膠瓶放入氣炸鍋內。 不知何故,該模型將這些零散資訊,結合更廣泛的網路預訓練資料,整合成了對該家電運作方式的實用理解。
「要精確指出這項知識的來源,或是預測它何時會成功、何時會失敗,都極為困難,」物理智能(Physical Intelligence)的研究科學家、同時也是史丹佛大學電腦科學博士生阿什溫·巴拉克里什納(Ashwin Balakrishna)指出。 儘管如此,在未經任何事前指導的情況下,該模型仍嘗試使用這台家電烹煮紅薯,並展現出可信的表現。當獲得逐步的口頭指示——本質上就像人類指導新員工那樣,一步步引導機器人完成流程——它便成功完成了任務。
這項指導能力意義重大,因為它意味著機器人可部署於全新環境並即時優化,無需額外收集數據或重新訓練模型。
那麼,這對未來有何更廣泛的啟示?研究人員坦率承認該模型的局限性,並謹慎避免誇大其進展。至少在一個案例中,他們將失敗直接歸咎於自身團隊。
「有時失敗並非源於機器人或模型,」巴拉克里什納表示。「問題出在我們身上——我們在提示工程方面不夠嫻熟。」他舉出早期的一次氣炸鍋實驗,當時成功率僅有 5%。在花費約三十分鐘調整向模型解釋任務的方式後,成功率飆升至 95%。

圖片來源:Physical Intelligence
此外,該模型目前仍無法僅憑單一高階指令,自主執行複雜的多步驟任務。「你不能只對它說:『去幫我烤片吐司』,」萊文指出。「但如果你引導它完成各個步驟——『打開烤麵包機的這個部分、按下那個按鈕、做這個』——那麼它的表現通常會相當出色。」
研究團隊也承認,機器人領域缺乏標準化的基準測試,這使得外界難以驗證其主張。因此,該公司將 π0.7 與自身早期的專用模型(針對特定任務量身打造並訓練的系統)進行比較,發現這款通用模型在多種複雜活動中表現與專用模型相當,包括沖泡咖啡、摺疊衣物以及組裝紙箱。
若採信研究人員的說法,這項研究最令人驚嘆之處或許不在於任何單一示範,而在於其成果竟讓那些本該對訓練資料瞭若指掌、因而清楚模型能力邊界的人士感到震驚。
「根據我的經驗,當我對數據有深刻理解時,通常都能預測模型能做到什麼,」巴拉克里什納(Balakrishna)反思道。「我很少感到驚訝。但過去這幾個月,是我第一次真正感到措手不及。我隨手買了一組齒輪,問機器人:『你能轉動這個齒輪嗎?』結果它竟然做到了。」
萊文回憶起研究人員首次目睹 GPT-2 生成關於安第斯山脈獨角獸故事的時刻。「它究竟是從哪裡學到秘魯有獨角獸的?」他說。「這組合實在太奇特了。在機器人領域見到這類自發性能力,確實非常特別。」
當然,批評者會強調其中存在著固有的不對稱性:語言模型是透過整個網際網路進行訓練的。機器人沒有這種奢侈條件,無論多麼巧妙的提示都無法完全彌補這道鴻溝。然而,當被問及他預期會面臨哪些質疑時,萊文卻指向了完全不同的方向。
「針對任何機器人泛化演示,總會有人批評任務看起來有些平淡無奇,」他觀察道。「機器人又不是在做後空翻。」他對此觀點提出質疑,並辯稱:華麗的機器人演示與真正具備泛化能力的系統之間的差異,恰恰才是關鍵所在。他指出,真正的泛化能力,雖然永遠比精心策劃的特技表演來得不那麼引人注目——但卻實用得多。
這篇論文本身始終採用謹慎的措辭,將 π0.7 描述為展現了泛化的「早期跡象」以及新能力的「初步展示」。這些是研究成果,而非商業產品,而 Physical Intelligence 對其商業化時程也始終保持低調。
當被直接問及基於這項研究的系統何時能投入實際應用時,萊文拒絕妄加揣測。「有充分理由保持樂觀,進展確實比我幾年前預期的更快,」他說。「但我很難給出確切的答案。」
迄今為止,Physical Intelligence 已籌集超過 10 億美元資金,最新估值達 56 億美元。 投資人對該公司展現的熱忱,很大程度上源於共同創辦人拉奇·格魯姆(Lachy Groom)。他曾長年擔任矽谷最受尊敬的天使投資人之一——曾投資 Figma、Notion 和 Ramp 等公司——最終認定 Physical Intelligence 正是他一直尋覓的創業項目。這份背景幫助這家新創公司吸引了大量機構資金,儘管他們始終未向投資人提供具體的商業化路線圖。
據報導,該公司目前正就新一輪融資進行洽談,此輪融資將使其估值幾乎翻倍至110億美元。團隊對此拒絕置評。
Trace籌集了300萬美元,用於解決企業採用AI智慧助手時所遇到的各種障礙。
儘管人工智慧代理具有巨大潛力,但它們在企業中仍難以取得實質性進展。一家新興的初創企業認為,根本問題在於缺乏上下文資訊。Trace是一家專注於工作流程協作的初創企業,它作為Y Combinator 2025年夏季培訓專案的一部分誕生,旨在彌補這一空白。該公司能夠梳理複雜的企業環境和業務流程,為人工智慧代理提供所需的上下文資訊,從而幫助它們快速發展。“OpenAI和Anthropic培養出了非常優秀的人工智慧實習生,企業完全可以利用這些資源,”Trace的執行長Tim Cherkasov解釋
Hightouch 憑藉 AI 驅動的行銷工具,年經常性收入(ARR)突破 1 億美元
過去,行銷人員必須仰賴設計師和其他創意專家,才能為個人化的線上廣告活動製作圖片和影片。2024 年底,成立七年的新創公司 Hightouch 推出了一項由人工智慧驅動的服務,讓行銷專業人士能夠為達美樂、Chime、PetSmart 和 Spotify 等品牌生成客製化內容——無需品牌設計團隊或廣告代理商的介入。這項服務已證實極為成功。自 20 個月前推出其 AI 產品以來,Hightouch 表示
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能
資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以





首頁






