選項
首頁
新聞
我們如何建立新的雙子座機器人技術模型

我們如何建立新的雙子座機器人技術模型

2025-04-10
83

我們如何建立新的雙子座機器人技術模型

當 Google DeepMind 為其關於新款 Gemini 2.0 機器人專用模型的最新公告做準備時,機器人部門負責人卡羅琳娜·帕拉達(Carolina Parada)召集她的團隊,對技術進行最後一次檢查。

他們挑戰了一台雙臂 ALOHA 機器人——你知道的,那些研究人員愛用的靈活金屬手臂,擁有眾多關節和鉗狀手的機器人——讓它執行從未做過的任務,處理從未見過的物體。「我們隨機丟東西給它,比如把我的鞋子放在桌上,然後要求它把一些筆放進去,」卡羅琳娜回憶道。「機器人停頓了一秒鐘以理解指令,然後就去執行了。」

接下來,他們找到了一個玩具籃球框和球,挑戰機器人進行「灌籃」。卡羅琳娜看著它完美完成時,忍不住露出驕傲的笑容。

卡羅琳娜說,看著灌籃的瞬間真是個「哇」的時刻。

「我們一直在訓練模型,幫助機器人完成特定任務並理解自然語言,但這次?這真是個遊戲規則的改變者,」卡羅琳娜解釋道。「這台機器人完全沒有籃球或這個特定玩具的經驗。然而,它理解了『將球灌籃』這個複雜概念,並順利完成了。第一次就成功。

這台多功能機器人由 Gemini Robotics 模型驅動,該模型是專為機器人設計的新一批多模態模型的一部分。這些模型通過針對機器人的特定數據進行微調,增強了 Gemini 2.0,將物理動作與 Gemini 通常的多模態輸出(如文本、視頻和音頻)相結合。「這一里程碑為下一波機器人應用奠定了基礎,」Google 首席執行官桑達爾·皮查伊(Sundar Pichai)在 X 上揭曉新模型時說道。

Gemini Robotics 模型極其多功能、互動性強且通用,使機器人能夠在無需額外訓練的情況下應對新物體、環境和指令。這是一個重大突破,考慮到團隊的目標。

「我們的目標是創造具身 AI,驅動機器人幫助完成現實世界中的日常任務,」卡羅琳娜說,她對機器人的熱情源自小時候看的科幻卡通以及對自動化家務的夢想。「未來,機器人將成為我們與 AI 互動的另一種方式,就像我們的手機或電腦一樣——成為我們世界中的物理代理。」

為了讓機器人安全且高效地完成工作,它們需要兩項關鍵能力:理解與決策,以及行動能力。Gemini Robotics-ER,一種基於 Gemini 2.0 Flash 的「具身推理」模型,專注於前者。它能辨識環境中的元素,評估它們的大小和位置,預測移動它們所需的路徑和抓取方式,然後生成執行動作的代碼。我們現在正將此模型推廣給受信任的測試者和合作夥伴。

Google DeepMind 還推出了 Gemini Robotics,這是其頂級視覺-語言-動作模型,讓機器人能夠分析場景、與用戶互動並採取行動。它在機器人學家頭痛的領域——靈巧性——取得了巨大進展。「對我們人類來說是第二天性的事情,對機器人來說卻很困難,」卡羅琳娜指出。「靈巧性涉及空間推理和複雜的物理操作。在測試中,Gemini Robotics 為靈巧性設定了新基準,以流暢的動作和令人印象深刻的完成時間處理複雜的多步驟任務。」

Gemini Robotics-ER 在具身推理方面表現出色,擅長物體檢測、指向物體的特定部分、尋找匹配點以及 3D 物體檢測。

在 Gemini Robotics 的帶領下,機器人已經製作了沙拉、打包了孩子們的午餐、玩了井字遊戲,甚至還製作了一隻摺紙狐狸。

讓模型準備好應對廣泛的任務並非易事——主要是因為這違背了傳統上為單一特定任務訓練模型直到完美的做法。「我們選擇了廣泛任務學習,用大量任務訓練模型,」卡羅琳娜說。「我們認為,經過一段時間後,它們會開始泛化,我們的判斷是正確的。」

這兩款模型都能適應不同的具身形式,從研究型機器人如雙臂 ALOHA 到我們的合作夥伴 Apptronik 開發的人形機器人 Apollo。

這些模型能夠適應不同的形式,執行諸如打包午餐盒或擦拭白板等任務,適用於各種機器人身體。

這種適應性對於機器人可能承擔多種角色的未來至關重要。

「使用這些高度通用且能力強大的模型的機器人潛力巨大且令人興奮,」卡羅琳娜說。「它們在複雜、需要精確且非為人類設計的空間的行業中可能非常有幫助。它們還能讓以人為中心的空間,如我們的家,生活更輕鬆。這還有很長的路要走,但這些模型正在推動我們前進。」

看起來,家務的幫助可能即將到來——終有一天。

相關文章
通過勞動力和能源基礎設施投資解鎖AI成長 通過勞動力和能源基礎設施投資解鎖AI成長 AI為美國提供了一個變革性的機會,以推動創新和經濟增長。其採用將促進經濟發展,創造就業機會,並加速科學進步。為了充分把握這些機會,美國必須緊急升級其老化的能源基礎設施。這需要更快的創新和尖端能源技術投資、更智能地使用現有電網、擴大新建輸電線路的建設,以及一支熟練的勞動力來建設這一關鍵基礎設施。在一份新報告《開創美國創新新時代》中,我們提出了15項可行的政策建議。這些建議中有許多是在廣泛的政策討論中
Adobe與Figma整合OpenAI的先進圖像生成模型 Adobe與Figma整合OpenAI的先進圖像生成模型 OpenAI在ChatGPT中增強的圖像生成功能帶動了用戶激增,這得益於其生成吉卜力工作室風格視覺效果和獨特設計的能力,現正擴展至其他平台。該公司在一篇博客文章中宣佈,驅動此功能的“原生多模態模型”將通過其API以“gpt-image-1”的形式提供,主要公司已開始採用。“該模型的靈活性使其能夠生成多樣化風格的圖像,遵循自定義指南,利用廣泛的世界知識,並精確渲染文字——為各行各業開啟了廣泛的實際應
科技巨頭對歐盟AI規範意見分歧,合規期限即將到來 科技巨頭對歐盟AI規範意見分歧,合規期限即將到來 歐盟的AI通用規範實務守則揭示了主要科技公司間的顯著分歧。微軟表示有意採納歐盟的志願性AI合規框架,而Meta則堅決拒絕,稱該指南為過度監管,可能阻礙創新。微軟總裁布拉德·史密斯週五對《路透社》表示:「我們在審查文件後很可能會簽署。」史密斯強調公司的合作立場,指出:「我們致力於支持這項倡議,同時感謝AI辦公室與業界的直接接觸。」相比之下,Meta全球事務負責人喬爾·卡普蘭在LinkedIn上表示:
評論 (21)
0/200
KeithLopez
KeithLopez 2025-08-09 01:01:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller
WilliamMiller 2025-04-14 08:57:22

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen
StephenGreen 2025-04-13 11:41:57

新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖

BenHernández
BenHernández 2025-04-13 06:11:04

新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!

JonathanAllen
JonathanAllen 2025-04-12 20:44:44

Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!

DonaldSanchez
DonaldSanchez 2025-04-12 10:55:17

제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!

回到頂部
OR