我们如何建立新的双子座机器人技术模型

随着谷歌DeepMind为最新的Gemini 2.0机器人定制模型公告做准备,机器人部门负责人卡罗琳娜·帕拉达(Carolina Parada)召集她的团队对技术进行最后一次检查。
他们挑战了一台双臂ALOHA机器人——你知道,那些研究人员喜欢使用的灵活金属手臂,带有多个关节和钳状手——让它完成从未做过的新任务,处理从未见过的物体。卡罗琳娜回忆说:“我们向它扔了一些随机物品,比如把我的鞋子放在桌上,要求它把几支笔塞进去。”“机器人停顿了一秒以理解情况,然后就去执行了。”
接下来,他们找到一个玩具篮球框和球,挑战机器人进行“灌篮”。卡罗琳娜忍不住为它的完美表现感到骄傲。
卡罗琳娜说,观看灌篮真是一个“哇”的时刻。
“我们一直在训练模型来帮助机器人完成特定任务并理解自然语言,但这次?这完全改变了游戏规则,”卡罗琳娜解释道。“机器人对篮球或这个特定玩具毫无经验。然而,它理解了‘将球灌篮’这一复杂概念,并顺利完成了。第一次就成功了。”
这个多功能机器人由Gemini Robotics模型驱动,这是专为机器人设计的新一批多模态模型的一部分。这些模型通过针对机器人的特定数据进行微调,增强了Gemini 2.0,将物理动作与Gemini通常的多模态输出(如文本、视频和音频)结合在一起。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在X上发布新模型时说:“这一里程碑为下一波可应用于各种场景的机器人奠定了基础。”
Gemini Robotics模型极其多功能、交互性强且通用,使机器人无需额外训练即可应对新物体、新环境和新指令。考虑到团队的目标,这是一个重大突破。
“我们的目标是创建具身AI,赋予机器人帮助处理现实世界中日常任务的能力,”卡罗琳娜说,她对机器人的热爱源于儿时看的科幻卡通和自动化家务的梦想。“未来,机器人将成为我们与AI交互的另一种方式,就像我们的手机或电脑一样——成为我们世界中的物理代理。”
机器人要出色且安全地完成工作,需要两种关键能力:理解和决策,以及行动能力。基于Gemini 2.0 Flash构建的“具身推理”模型Gemini Robotics-ER专注于前者。它可以识别环境中元素,判断它们的大小和位置,预测移动它们所需的路径和抓取方式。然后,它生成代码来执行动作。我们现已将此模型推广给可信测试者和合作伙伴。
谷歌DeepMind还推出了Gemini Robotics,这是顶级的视觉-语言-动作模型,让机器人能够分析场景、与用户互动并采取行动。它在机器人专家头痛的领域——灵巧性——取得了巨大进步。卡罗琳娜指出:“对我们人类来说是第二天性的东西,对机器人来说却很困难。”“灵巧性涉及空间推理和复杂的物理操作。在测试中,Gemini Robotics为灵巧性设定了新标杆,处理复杂的多步骤任务时动作流畅,完成时间令人印象深刻。”
Gemini Robotics-ER在具身推理方面表现出色,擅长物体检测、指向物体部分、寻找匹配点和3D物体检测。
在Gemini Robotics的带领下,机器人已经能够制作沙拉、打包儿童午餐、玩井字游戏,甚至折叠一只折纸狐狸。
让模型准备好处理广泛的任务并非易事——主要是因为这与为单一特定任务训练模型直到完美的传统背道而驰。卡罗琳娜说:“我们选择了广泛任务学习,用大量任务训练模型。”“我们认为,经过一段时间后,模型会开始泛化,我们的判断完全正确。”
这两种模型都能适应各种具身形式,从研究型机器人如双臂ALOHA到我们合作伙伴Apptronik开发的类人机器人Apollo。
这些模型可以适应不同形态,执行如打包午餐盒或擦白板等任务,适用于各种机器人身体。
这种适应性对于机器人可能承担多种角色的未来至关重要。
卡罗琳娜说:“使用这些高度通用且能力强大的模型的机器人的潜力巨大且令人兴奋。”“它们在复杂、需要精确且非为人类设计的空间中可能非常有用。它们还可以在以人为中心的空间(如我们的家)中让生活更轻松。这还有一段路要走,但这些模型正在推动我们前进。”
看来帮助处理家务的日子可能即将来临——最终会实现的。
相关文章
通过劳动力与能源基础设施投资释放AI增长
AI为美国提供了一个推动创新和经济增长的变革性机会。其采用将促进经济,创造就业机会,并加速科学进步。为了充分抓住这些机会,国家必须紧急升级其老化的能源基础设施。这需要更快地创新和投资尖端能源技术,更智能地利用现有电网,扩大新建输电线路的建设,以及培养建设这一关键基础设施的熟练劳动力。在一份新报告《开启美国创新新时代》中,我们概述了15项可操作的政策建议。其中许多想法通过广泛的政策讨论形成,得到了不
Adobe和Figma整合OpenAI的先进图像生成模型
OpenAI在ChatGPT中增强的图像生成功能引发了用户激增,这得益于其生成吉卜力工作室风格视觉效果和独特设计的能力,现已扩展到其他平台。该公司在一篇博客文章中宣布,驱动此功能的“原生多模态模型”将通过其API作为“gpt-image-1”提供,主要公司已开始采用。“该模型的灵活性使其能够生成多样化风格的图像,遵循自定义指南,利用广泛的世界知识,并准确渲染文本——为各行业开辟了广泛的实际应用,”
科技巨头在欧盟AI准则问题上意见分歧,因为合规期限即将来临
欧盟的通用人工智能实践准则揭示了领先科技公司之间的明显分歧。微软表示有意采用欧盟的志愿AI合规框架,而Meta则坚决拒绝,称该准则为过度监管,可能阻碍创新。微软总裁布拉德·史密斯周五对《路透社》表示:“我们在审阅文件后很可能会签署。”史密斯强调了公司的合作态度,指出:“我们旨在支持这一举措,同时感谢AI办公室与行业的直接接触。”相比之下,Meta的全球事务负责人乔尔·卡普兰在LinkedIn上表示
评论 (21)
0/200
KeithLopez
2025-08-09 01:01:00
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
0
WilliamMiller
2025-04-14 08:57:22
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖
0
StephenGreen
2025-04-13 11:41:57
新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖
0
BenHernández
2025-04-13 06:11:04
新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!
0
JonathanAllen
2025-04-12 20:44:44
Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!
0
DonaldSanchez
2025-04-12 10:55:17
제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!
0
随着谷歌DeepMind为最新的Gemini 2.0机器人定制模型公告做准备,机器人部门负责人卡罗琳娜·帕拉达(Carolina Parada)召集她的团队对技术进行最后一次检查。
他们挑战了一台双臂ALOHA机器人——你知道,那些研究人员喜欢使用的灵活金属手臂,带有多个关节和钳状手——让它完成从未做过的新任务,处理从未见过的物体。卡罗琳娜回忆说:“我们向它扔了一些随机物品,比如把我的鞋子放在桌上,要求它把几支笔塞进去。”“机器人停顿了一秒以理解情况,然后就去执行了。”
接下来,他们找到一个玩具篮球框和球,挑战机器人进行“灌篮”。卡罗琳娜忍不住为它的完美表现感到骄傲。
“我们一直在训练模型来帮助机器人完成特定任务并理解自然语言,但这次?这完全改变了游戏规则,”卡罗琳娜解释道。“机器人对篮球或这个特定玩具毫无经验。然而,它理解了‘将球灌篮’这一复杂概念,并顺利完成了。第一次就成功了。”
这个多功能机器人由Gemini Robotics模型驱动,这是专为机器人设计的新一批多模态模型的一部分。这些模型通过针对机器人的特定数据进行微调,增强了Gemini 2.0,将物理动作与Gemini通常的多模态输出(如文本、视频和音频)结合在一起。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在X上发布新模型时说:“这一里程碑为下一波可应用于各种场景的机器人奠定了基础。”
Gemini Robotics模型极其多功能、交互性强且通用,使机器人无需额外训练即可应对新物体、新环境和新指令。考虑到团队的目标,这是一个重大突破。
“我们的目标是创建具身AI,赋予机器人帮助处理现实世界中日常任务的能力,”卡罗琳娜说,她对机器人的热爱源于儿时看的科幻卡通和自动化家务的梦想。“未来,机器人将成为我们与AI交互的另一种方式,就像我们的手机或电脑一样——成为我们世界中的物理代理。”
谷歌DeepMind还推出了Gemini Robotics,这是顶级的视觉-语言-动作模型,让机器人能够分析场景、与用户互动并采取行动。它在机器人专家头痛的领域——灵巧性——取得了巨大进步。卡罗琳娜指出:“对我们人类来说是第二天性的东西,对机器人来说却很困难。”“灵巧性涉及空间推理和复杂的物理操作。在测试中,Gemini Robotics为灵巧性设定了新标杆,处理复杂的多步骤任务时动作流畅,完成时间令人印象深刻。”
让模型准备好处理广泛的任务并非易事——主要是因为这与为单一特定任务训练模型直到完美的传统背道而驰。卡罗琳娜说:“我们选择了广泛任务学习,用大量任务训练模型。”“我们认为,经过一段时间后,模型会开始泛化,我们的判断完全正确。”
这两种模型都能适应各种具身形式,从研究型机器人如双臂ALOHA到我们合作伙伴Apptronik开发的类人机器人Apollo。
卡罗琳娜说:“使用这些高度通用且能力强大的模型的机器人的潜力巨大且令人兴奋。”“它们在复杂、需要精确且非为人类设计的空间中可能非常有用。它们还可以在以人为中心的空间(如我们的家)中让生活更轻松。这还有一段路要走,但这些模型正在推动我们前进。”
看来帮助处理家务的日子可能即将来临——最终会实现的。



The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖




Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖




新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖




新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!




Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!




제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!












