选项
首页
新闻
我们如何建立新的双子座机器人技术模型

我们如何建立新的双子座机器人技术模型

2025-04-10
84

我们如何建立新的双子座机器人技术模型

随着谷歌DeepMind为最新的Gemini 2.0机器人定制模型公告做准备,机器人部门负责人卡罗琳娜·帕拉达(Carolina Parada)召集她的团队对技术进行最后一次检查。

他们挑战了一台双臂ALOHA机器人——你知道,那些研究人员喜欢使用的灵活金属手臂,带有多个关节和钳状手——让它完成从未做过的新任务,处理从未见过的物体。卡罗琳娜回忆说:“我们向它扔了一些随机物品,比如把我的鞋子放在桌上,要求它把几支笔塞进去。”“机器人停顿了一秒以理解情况,然后就去执行了。”

接下来,他们找到一个玩具篮球框和球,挑战机器人进行“灌篮”。卡罗琳娜忍不住为它的完美表现感到骄傲。

卡罗琳娜说,观看灌篮真是一个“哇”的时刻。

“我们一直在训练模型来帮助机器人完成特定任务并理解自然语言,但这次?这完全改变了游戏规则,”卡罗琳娜解释道。“机器人对篮球或这个特定玩具毫无经验。然而,它理解了‘将球灌篮’这一复杂概念,并顺利完成了。第一次就成功了。

这个多功能机器人由Gemini Robotics模型驱动,这是专为机器人设计的新一批多模态模型的一部分。这些模型通过针对机器人的特定数据进行微调,增强了Gemini 2.0,将物理动作与Gemini通常的多模态输出(如文本、视频和音频)结合在一起。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在X上发布新模型时说:“这一里程碑为下一波可应用于各种场景的机器人奠定了基础。”

Gemini Robotics模型极其多功能、交互性强且通用,使机器人无需额外训练即可应对新物体、新环境和新指令。考虑到团队的目标,这是一个重大突破。

“我们的目标是创建具身AI,赋予机器人帮助处理现实世界中日常任务的能力,”卡罗琳娜说,她对机器人的热爱源于儿时看的科幻卡通和自动化家务的梦想。“未来,机器人将成为我们与AI交互的另一种方式,就像我们的手机或电脑一样——成为我们世界中的物理代理。”

机器人要出色且安全地完成工作,需要两种关键能力:理解和决策,以及行动能力。基于Gemini 2.0 Flash构建的“具身推理”模型Gemini Robotics-ER专注于前者。它可以识别环境中元素,判断它们的大小和位置,预测移动它们所需的路径和抓取方式。然后,它生成代码来执行动作。我们现已将此模型推广给可信测试者和合作伙伴。

谷歌DeepMind还推出了Gemini Robotics,这是顶级的视觉-语言-动作模型,让机器人能够分析场景、与用户互动并采取行动。它在机器人专家头痛的领域——灵巧性——取得了巨大进步。卡罗琳娜指出:“对我们人类来说是第二天性的东西,对机器人来说却很困难。”“灵巧性涉及空间推理和复杂的物理操作。在测试中,Gemini Robotics为灵巧性设定了新标杆,处理复杂的多步骤任务时动作流畅,完成时间令人印象深刻。”

Gemini Robotics-ER在具身推理方面表现出色,擅长物体检测、指向物体部分、寻找匹配点和3D物体检测。

在Gemini Robotics的带领下,机器人已经能够制作沙拉、打包儿童午餐、玩井字游戏,甚至折叠一只折纸狐狸。

让模型准备好处理广泛的任务并非易事——主要是因为这与为单一特定任务训练模型直到完美的传统背道而驰。卡罗琳娜说:“我们选择了广泛任务学习,用大量任务训练模型。”“我们认为,经过一段时间后,模型会开始泛化,我们的判断完全正确。”

这两种模型都能适应各种具身形式,从研究型机器人如双臂ALOHA到我们合作伙伴Apptronik开发的类人机器人Apollo。

这些模型可以适应不同形态,执行如打包午餐盒或擦白板等任务,适用于各种机器人身体。

这种适应性对于机器人可能承担多种角色的未来至关重要。

卡罗琳娜说:“使用这些高度通用且能力强大的模型的机器人的潜力巨大且令人兴奋。”“它们在复杂、需要精确且非为人类设计的空间中可能非常有用。它们还可以在以人为中心的空间(如我们的家)中让生活更轻松。这还有一段路要走,但这些模型正在推动我们前进。”

看来帮助处理家务的日子可能即将来临——最终会实现的。

相关文章
谷歌重新推出人工智能 谷歌重新推出人工智能 "询问照片",提高了速度功能 在暂时停止测试之后,谷歌将在谷歌照片中重新推出人工智能驱动的 "询问照片 "搜索功能,并对该功能进行了重大改进。这项创新功能由谷歌的双子座人工智能技术提供支持,可帮助用户通过自然语言查询找到特定图片。询问照片 "的主要改进谷歌最近承认了该功能最初存在的不足,特别是在响应时间和结果准确性方面。针对用户的反馈意见,谷歌强调了以下需求基本搜索(如 "海滩度假")结果更快提高复杂查询的搜索相关性增强整体用
微软在新的人工智能合作中托管 xAI 先进的 Grok 3 模型 微软在新的人工智能合作中托管 xAI 先进的 Grok 3 模型 本月早些时候,我的*记事本*调查新闻报道揭露了微软整合埃隆-马斯克(Elon Musk)的Grok人工智能模型的计划--这一消息现已得到官方证实。今天,在微软年度Build开发者大会上,公司高管透露,Azure AI Foundry将整合马斯克xAI初创公司的Grok-3及其紧凑型同胞兄弟Grok-3 mini。微软不断扩展的人工智能生态系统"微软发言人证实:"这些尖端模型将满足微软客户对我们云服
苹果公司与 Anthropic 合作为 Xcode 开发人工智能编码工具 苹果公司与 Anthropic 合作为 Xcode 开发人工智能编码工具 苹果与 Anthropic 合作开发人工智能编码助手据彭博社报道,苹果公司正在开发一款先进的人工智能编码助手,将直接集成到其旗舰开发环境 Xcode 中。此次与 Anthropic 的合作将采用 Claude Sonnet 模型,协助开发人员编写、完善和测试代码。新工具目前正在进行内部测试,苹果尚未确定公开发布的计划。据报道,该系统采用对话式界面来处理开发人员的请求,并具备 UI 测试和自
评论 (22)
0/200
CarlGarcia
CarlGarcia 2025-09-19 12:30:33

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez
KeithLopez 2025-08-09 01:01:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller
WilliamMiller 2025-04-14 08:57:22

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen
StephenGreen 2025-04-13 11:41:57

新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖

BenHernández
BenHernández 2025-04-13 06:11:04

新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!

JonathanAllen
JonathanAllen 2025-04-12 20:44:44

Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!

返回顶部
OR