我們如何建立新的雙子座機器人技術模型

當 Google DeepMind 為其關於新款 Gemini 2.0 機器人專用模型的最新公告做準備時,機器人部門負責人卡羅琳娜·帕拉達(Carolina Parada)召集她的團隊,對技術進行最後一次檢查。
他們挑戰了一台雙臂 ALOHA 機器人——你知道的,那些研究人員愛用的靈活金屬手臂,擁有眾多關節和鉗狀手的機器人——讓它執行從未做過的任務,處理從未見過的物體。「我們隨機丟東西給它,比如把我的鞋子放在桌上,然後要求它把一些筆放進去,」卡羅琳娜回憶道。「機器人停頓了一秒鐘以理解指令,然後就去執行了。」
接下來,他們找到了一個玩具籃球框和球,挑戰機器人進行「灌籃」。卡羅琳娜看著它完美完成時,忍不住露出驕傲的笑容。
卡羅琳娜說,看著灌籃的瞬間真是個「哇」的時刻。
「我們一直在訓練模型,幫助機器人完成特定任務並理解自然語言,但這次?這真是個遊戲規則的改變者,」卡羅琳娜解釋道。「這台機器人完全沒有籃球或這個特定玩具的經驗。然而,它理解了『將球灌籃』這個複雜概念,並順利完成了。第一次就成功。」
這台多功能機器人由 Gemini Robotics 模型驅動,該模型是專為機器人設計的新一批多模態模型的一部分。這些模型通過針對機器人的特定數據進行微調,增強了 Gemini 2.0,將物理動作與 Gemini 通常的多模態輸出(如文本、視頻和音頻)相結合。「這一里程碑為下一波機器人應用奠定了基礎,」Google 首席執行官桑達爾·皮查伊(Sundar Pichai)在 X 上揭曉新模型時說道。
Gemini Robotics 模型極其多功能、互動性強且通用,使機器人能夠在無需額外訓練的情況下應對新物體、環境和指令。這是一個重大突破,考慮到團隊的目標。
「我們的目標是創造具身 AI,驅動機器人幫助完成現實世界中的日常任務,」卡羅琳娜說,她對機器人的熱情源自小時候看的科幻卡通以及對自動化家務的夢想。「未來,機器人將成為我們與 AI 互動的另一種方式,就像我們的手機或電腦一樣——成為我們世界中的物理代理。」
為了讓機器人安全且高效地完成工作,它們需要兩項關鍵能力:理解與決策,以及行動能力。Gemini Robotics-ER,一種基於 Gemini 2.0 Flash 的「具身推理」模型,專注於前者。它能辨識環境中的元素,評估它們的大小和位置,預測移動它們所需的路徑和抓取方式,然後生成執行動作的代碼。我們現在正將此模型推廣給受信任的測試者和合作夥伴。
Google DeepMind 還推出了 Gemini Robotics,這是其頂級視覺-語言-動作模型,讓機器人能夠分析場景、與用戶互動並採取行動。它在機器人學家頭痛的領域——靈巧性——取得了巨大進展。「對我們人類來說是第二天性的事情,對機器人來說卻很困難,」卡羅琳娜指出。「靈巧性涉及空間推理和複雜的物理操作。在測試中,Gemini Robotics 為靈巧性設定了新基準,以流暢的動作和令人印象深刻的完成時間處理複雜的多步驟任務。」
Gemini Robotics-ER 在具身推理方面表現出色,擅長物體檢測、指向物體的特定部分、尋找匹配點以及 3D 物體檢測。
在 Gemini Robotics 的帶領下,機器人已經製作了沙拉、打包了孩子們的午餐、玩了井字遊戲,甚至還製作了一隻摺紙狐狸。
讓模型準備好應對廣泛的任務並非易事——主要是因為這違背了傳統上為單一特定任務訓練模型直到完美的做法。「我們選擇了廣泛任務學習,用大量任務訓練模型,」卡羅琳娜說。「我們認為,經過一段時間後,它們會開始泛化,我們的判斷是正確的。」
這兩款模型都能適應不同的具身形式,從研究型機器人如雙臂 ALOHA 到我們的合作夥伴 Apptronik 開發的人形機器人 Apollo。
這些模型能夠適應不同的形式,執行諸如打包午餐盒或擦拭白板等任務,適用於各種機器人身體。
這種適應性對於機器人可能承擔多種角色的未來至關重要。
「使用這些高度通用且能力強大的模型的機器人潛力巨大且令人興奮,」卡羅琳娜說。「它們在複雜、需要精確且非為人類設計的空間的行業中可能非常有幫助。它們還能讓以人為中心的空間,如我們的家,生活更輕鬆。這還有很長的路要走,但這些模型正在推動我們前進。」
看起來,家務的幫助可能即將到來——終有一天。
相關文章
R1: 中國科技巨頭推出媲美擎天柱的人形機器人
螞蟻集團推出首款仿人機器人原型支付巨頭的機器人部門在各大科技活動中首次亮相其 R1 人形機器人,展示自動化烹飪示範,展現超越簡單製造應用的雄心。公開示範在歐洲首屈一指的 IFA 電子展上,科技愛好者目睹了 Robbyant 的機械化廚師製作海鮮料理,並計劃在上海的包容性會議上進行更多展示。該原型展示了基本的移動性和物件操控能力,但與人類相比,操作速度仍然有限。潛在應用開發人員預期會有
Windows 11 更新在 Copilot 應用程式中推出 AI 驅動的檔案搜尋功能
微軟目前正在評估一項增強的 Windows 11 功能,可將 AI 驅動的檔案搜尋功能直接帶入 Copilot 應用程式。這項實驗性功能將分發給使用 Copilot Plus PC 的 Windows Insiders,為尋找文件和媒體檔案引入更多自然語言搜尋功能。雖然 Copilot 已經可以透過名稱、修改日期或檔案類型進行基本的檔案搜尋,但這項升級擴大了搜尋功能,讓使用者可以理解描述性的查詢,
Google 重新推出人工智慧「Ask Photos」,提升速度功能
繼暫停測試之後,Google 在 Google Photos 中重新推出人工智慧驅動的「Ask Photos」搜尋功能,並大幅強化其功能。這項創新功能以 Google 的 Gemini AI 技術為基礎,可協助使用者透過自然語言查詢,找到特定的圖片。Ask Photos 的主要改進Google 最近承認了該功能最初的不足之處,特別是在回應時間和結果準確性方面。為了回應使用者強調以下需求的意見基本搜
評論 (22)
0/200
CarlGarcia
2025-09-19 12:30:33
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
0
KeithLopez
2025-08-09 01:01:00
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
0
WilliamMiller
2025-04-14 08:57:22
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖
0
StephenGreen
2025-04-13 11:41:57
新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖
0
BenHernández
2025-04-13 06:11:04
新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!
0
JonathanAllen
2025-04-12 20:44:44
Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!
0
當 Google DeepMind 為其關於新款 Gemini 2.0 機器人專用模型的最新公告做準備時,機器人部門負責人卡羅琳娜·帕拉達(Carolina Parada)召集她的團隊,對技術進行最後一次檢查。
他們挑戰了一台雙臂 ALOHA 機器人——你知道的,那些研究人員愛用的靈活金屬手臂,擁有眾多關節和鉗狀手的機器人——讓它執行從未做過的任務,處理從未見過的物體。「我們隨機丟東西給它,比如把我的鞋子放在桌上,然後要求它把一些筆放進去,」卡羅琳娜回憶道。「機器人停頓了一秒鐘以理解指令,然後就去執行了。」
接下來,他們找到了一個玩具籃球框和球,挑戰機器人進行「灌籃」。卡羅琳娜看著它完美完成時,忍不住露出驕傲的笑容。
「我們一直在訓練模型,幫助機器人完成特定任務並理解自然語言,但這次?這真是個遊戲規則的改變者,」卡羅琳娜解釋道。「這台機器人完全沒有籃球或這個特定玩具的經驗。然而,它理解了『將球灌籃』這個複雜概念,並順利完成了。第一次就成功。」
這台多功能機器人由 Gemini Robotics 模型驅動,該模型是專為機器人設計的新一批多模態模型的一部分。這些模型通過針對機器人的特定數據進行微調,增強了 Gemini 2.0,將物理動作與 Gemini 通常的多模態輸出(如文本、視頻和音頻)相結合。「這一里程碑為下一波機器人應用奠定了基礎,」Google 首席執行官桑達爾·皮查伊(Sundar Pichai)在 X 上揭曉新模型時說道。
Gemini Robotics 模型極其多功能、互動性強且通用,使機器人能夠在無需額外訓練的情況下應對新物體、環境和指令。這是一個重大突破,考慮到團隊的目標。
「我們的目標是創造具身 AI,驅動機器人幫助完成現實世界中的日常任務,」卡羅琳娜說,她對機器人的熱情源自小時候看的科幻卡通以及對自動化家務的夢想。「未來,機器人將成為我們與 AI 互動的另一種方式,就像我們的手機或電腦一樣——成為我們世界中的物理代理。」
Google DeepMind 還推出了 Gemini Robotics,這是其頂級視覺-語言-動作模型,讓機器人能夠分析場景、與用戶互動並採取行動。它在機器人學家頭痛的領域——靈巧性——取得了巨大進展。「對我們人類來說是第二天性的事情,對機器人來說卻很困難,」卡羅琳娜指出。「靈巧性涉及空間推理和複雜的物理操作。在測試中,Gemini Robotics 為靈巧性設定了新基準,以流暢的動作和令人印象深刻的完成時間處理複雜的多步驟任務。」
讓模型準備好應對廣泛的任務並非易事——主要是因為這違背了傳統上為單一特定任務訓練模型直到完美的做法。「我們選擇了廣泛任務學習,用大量任務訓練模型,」卡羅琳娜說。「我們認為,經過一段時間後,它們會開始泛化,我們的判斷是正確的。」
這兩款模型都能適應不同的具身形式,從研究型機器人如雙臂 ALOHA 到我們的合作夥伴 Apptronik 開發的人形機器人 Apollo。
「使用這些高度通用且能力強大的模型的機器人潛力巨大且令人興奮,」卡羅琳娜說。「它們在複雜、需要精確且非為人類設計的空間的行業中可能非常有幫助。它們還能讓以人為中心的空間,如我們的家,生活更輕鬆。這還有很長的路要走,但這些模型正在推動我們前進。」
看起來,家務的幫助可能即將到來——終有一天。




Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅




The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖




Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖




新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖




新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!




Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!












