Google推出设备端Gemini AI机器人模型
Google DeepMind发布Gemini Robotics On-Device,支持离线机器人控制
Google DeepMind在机器人领域发布了一项激动人心的更新——Gemini Robotics On-Device,一款无需网络连接即可让机器人执行任务的新语言模型。这建立在他们早先的Gemini Robotics模型(3月发布)基础上,关键升级在于:本地处理。
开发者现可通过自然语言提示微调机器人动作,更轻松地适配不同任务。Google声称其性能几乎与云端模型相当,且优于其他设备端模型(未具体说明哪些模型)。

图片来源:Google 现实世界的机器人技能:从洗衣到流水线
在演示中,运行该模型的机器人成功完成了:
- 解开拉链包
- 折叠衣物
- 适配新物体(如在工业流水线上组装零件)
最初为ALOHA机器人训练,该模型随后适配到:
- Franka FR3(双臂工业机器人)
- Apptronik的Apollo人形机器人
Gemini Robotics SDK:通过示范训练机器人
Google还推出了Gemini Robotics SDK,允许开发者在MuJoCo物理模拟器中通过50-100次任务示范训练机器人,加速现实世界的机器人学习。
更广阔的图景:AI进军机器人领域
Google并非独行:
- Nvidia正在为人形机器人构建基础模型
- Hugging Face致力于开放模型及实际机器人
- RLWRLD(韩国初创公司)在开发机器人基础模型
AI驱动的机器人未来正在升温——而且是离线、设备端、实时进行。
想要更多科技洞察?
加入我们在马萨诸塞州波士顿(7月15日)举办的TechCrunch Disrupt,深入探讨AI、机器人和投资趋势。全阶段通行证节省200美元以上,与来自Precursor Ventures、NEA、Index Ventures和Underscore VC的领袖交流。
👉 立即注册
相关文章
谷歌在印度的Chrome浏览器中推出Gemini
周三,谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini,用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容,从Gmail、Keep、Drive和YouTube中检索信息,并比较不同标签页的内容。随着此次扩展,除了英语和近期新增的Chrome支持语言外,Gemini还将支持印地语、孟加拉语、古吉拉特语、卡
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者
周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
YouTube 测试基于人工智能的搜索功能,提供引导式答案
许多用户在搜索食谱或旅行计划时会转向YouTube,寻找相关视频。如今,该平台推出了一款由人工智能驱动的交互式搜索工具,能够提供融合文字和视频内容的分步搜索结果。借助全新的“Ask YouTube”功能,用户可以提出诸如“规划从旧金山到圣巴巴拉的3天自驾游”之类的问题,并获得结合了文字、短视频片段和长视频的分步结果——而非仅显示视频结果。YouTube表示,该功能将展示视频及相关片段,同时提供标题
相关专题推荐
评论 (3)
0/500
Super cool that robots can now think offline with Gemini! Imagine them zipping around without Wi-Fi, making decisions on the fly. Can’t wait to see this in action at home! 🤖
This is wild! Robots running Gemini AI offline? Google’s pushing the future hard. Can’t wait to see how this shakes up industries, but I’m low-key worried about robots getting too smart too fast. 😅
Google DeepMind发布Gemini Robotics On-Device,支持离线机器人控制
Google DeepMind在机器人领域发布了一项激动人心的更新——Gemini Robotics On-Device,一款无需网络连接即可让机器人执行任务的新语言模型。这建立在他们早先的Gemini Robotics模型(3月发布)基础上,关键升级在于:本地处理。
开发者现可通过自然语言提示微调机器人动作,更轻松地适配不同任务。Google声称其性能几乎与云端模型相当,且优于其他设备端模型(未具体说明哪些模型)。

现实世界的机器人技能:从洗衣到流水线
在演示中,运行该模型的机器人成功完成了:
- 解开拉链包
- 折叠衣物
- 适配新物体(如在工业流水线上组装零件)
最初为ALOHA机器人训练,该模型随后适配到:
- Franka FR3(双臂工业机器人)
- Apptronik的Apollo人形机器人
Gemini Robotics SDK:通过示范训练机器人
Google还推出了Gemini Robotics SDK,允许开发者在MuJoCo物理模拟器中通过50-100次任务示范训练机器人,加速现实世界的机器人学习。
更广阔的图景:AI进军机器人领域
Google并非独行:
- Nvidia正在为人形机器人构建基础模型
- Hugging Face致力于开放模型及实际机器人
- RLWRLD(韩国初创公司)在开发机器人基础模型
AI驱动的机器人未来正在升温——而且是离线、设备端、实时进行。
想要更多科技洞察?
加入我们在马萨诸塞州波士顿(7月15日)举办的TechCrunch Disrupt,深入探讨AI、机器人和投资趋势。全阶段通行证节省200美元以上,与来自Precursor Ventures、NEA、Index Ventures和Underscore VC的领袖交流。
👉 立即注册
谷歌在印度的Chrome浏览器中推出Gemini
周三,谷歌宣布将把Chrome浏览器中Gemini的集成功能扩展至印度、加拿大和新西兰等新地区。此次更新使桌面端用户能够通过侧边栏访问Gemini,用户可通过该功能向谷歌的AI聊天机器人咨询屏幕上的内容,从Gmail、Keep、Drive和YouTube中检索信息,并比较不同标签页的内容。随着此次扩展,除了英语和近期新增的Chrome支持语言外,Gemini还将支持印地语、孟加拉语、古吉拉特语、卡
YouTube将AI深度伪造检测功能扩展至政界人士、政府官员和记者
周二,YouTube宣布将把其深度伪造(deepfake)检测技术推广至部分政府官员、政治候选人和记者。该工具可识别由人工智能生成的肖像,并允许试点参与者申请删除其认为违反YouTube政策的未经授权内容。该检测系统在经过前期测试阶段后,于去年首次向约400万名YouTube合作伙伴计划的创作者推出。与YouTube现有的用于保护版权内容的Content ID系统类似,该肖像检测功能可识别AI模拟
YouTube 测试基于人工智能的搜索功能,提供引导式答案
许多用户在搜索食谱或旅行计划时会转向YouTube,寻找相关视频。如今,该平台推出了一款由人工智能驱动的交互式搜索工具,能够提供融合文字和视频内容的分步搜索结果。借助全新的“Ask YouTube”功能,用户可以提出诸如“规划从旧金山到圣巴巴拉的3天自驾游”之类的问题,并获得结合了文字、短视频片段和长视频的分步结果——而非仅显示视频结果。YouTube表示,该功能将展示视频及相关片段,同时提供标题
Super cool that robots can now think offline with Gemini! Imagine them zipping around without Wi-Fi, making decisions on the fly. Can’t wait to see this in action at home! 🤖
This is wild! Robots running Gemini AI offline? Google’s pushing the future hard. Can’t wait to see how this shakes up industries, but I’m low-key worried about robots getting too smart too fast. 😅





首页






