选项
首页
新闻
OpenCUA 的开源人工智能代理挑战 OpenAI 和 Anthropic 的专有模型

OpenCUA 的开源人工智能代理挑战 OpenAI 和 Anthropic 的专有模型

2025-11-04
65

香港大学及其合作机构的研究人员开发了一个名为 OpenCUA 的创新开源框架,为构建能够操作计算机的人工智能代理奠定了坚实的基础。这个全面的工具包为扩大计算机使用代理(CUA)的开发规模提供了基本组件,包括专用工具、广泛的训练数据集和经过验证的方法。

初步评估表明,与其他开源解决方案相比,使用 OpenCUA 训练的模型在 CUA 基准测试中取得了优异的性能,同时可与 OpenAI 和 Anthropic 等行业领先企业的专有系统相媲美。

开发计算机使用代理的复杂挑战

计算机使用代理代表了一种变革性的人工智能,旨在自主执行从简单的网络导航到复杂的软件操作等各种数字任务。这些智能系统在企业工作流程自动化方面具有巨大潜力,但大多数先进的计算机使用代理仍是专有黑盒。

"商业 CUAs 缺乏透明度限制了技术进步,并引发了重要的安全问题,"研究团队在发表的论文中指出。"科学界需要真正开放的框架,以正确调查能力、局限性和潜在风险"。

当前的开源计划面临着重大障碍,包括

  • 大规模、多样化数据收集的基础设施不足
  • 高质量图形用户界面交互数据集的可用性有限
  • 文档不足,导致研究难以复制

正如本文所述"这些制约因素共同阻碍了通用 CUAs 的发展,妨碍了对其可扩展性、泛化能力和最佳学习方法的全面探索"。

介绍 OpenCUA 框架

*OpenCUA架构概述(来源:香港大学XLANG实验室)*。

OpenCUA 框架引入了一个综合解决方案,以应对数据收集和模型训练方面的挑战。其核心组件是 AgentNet 工具--可在多个操作系统中捕捉详细人机交互信息的专用软件。

*AgentNet数据收集工具(来源:香港大学XLang实验室)*。

这一创新工具可在后台悄然运行,并进行记录:

  • 屏幕活动视频
  • 精确的鼠标/键盘输入
  • 定义屏幕元素的无障碍树结构

研究人员将这些原始交互数据处理成精炼的 "状态-动作轨迹",将计算机屏幕截图与相应的用户动作配对。由此产生的 AgentNet 数据集包含 22600 多个任务演示,横跨 Windows、macOS 和 Ubuntu 环境,以及 200 多个不同的应用程序和网站。

香港大学博士生研究员、该研究合著者王新元强调了他们严格的隐私保护措施:"我们实施了一个多层次的安全框架,允许注释者对其提交的内容进行完全的可见性和控制,然后在数据发布前进行人工验证和自动敏感内容扫描。

创新的培训方法

*OpenCUA的思维链推理过程(来源:香港大学XLang实验室)

该框架引入了一个新颖的数据处理管道,将已清理的状态-行动对与结构化的思维链推理相结合。这种方法可为每个动作生成详细的 "认知独白",其中包括

  1. 高级屏幕观察
  2. 战略分析和规划
  3. 精确的可执行指令

据 Wang 介绍,企业可以通过记录内部工作流程并应用相同的推理框架,调整这一管道,为专有系统培训专用代理。"他解释说:"这使企业能够开发高性能的定制代理,而无需手动创建推理跟踪。

基准性能和企业应用

*OpenCUA性能比较(来源:香港大学XLANG实验室)

在 OSWorld-Verified 基准测试中,320 亿参数 OpenCUA 模型在开源解决方案中取得了创纪录的性能,同时大大缩小了与领先专有系统的差距。企业的主要收获包括

  • 框架适用于各种模型架构和规模
  • 跨平台和任务类型的强大通用性
  • 对重复性工作流程的自动化特别有效

Wang 强调了实施方面的挑战:"现实世界的部署需要强大的安全机制,以防止在任务执行过程中出现意外的系统修改或有害的副作用。

研究团队公开发布了所有框架组件,包括源代码、数据集和模型权重。随着 OpenCUA 驱动的代理的发展,它们可能会从根本上改变工作场所的动态,让人类员工专注于战略目标,而人工智能则负责操作执行。

相关文章
Multiverse Computing推出免费压缩生成式AI模型 Multiverse Computing推出免费压缩生成式AI模型 大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件 秘密追踪数据揭露人工智能模型被盗事件 一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文 人工智能系统被诱骗批准荒谬的科学论文 最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量
相关专题推荐
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
评论 (1)
0/500
JuanJackson
JuanJackson 2026-03-19 08:01:17

Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅

OR