OpenCUA 的开源人工智能代理挑战 OpenAI 和 Anthropic 的专有模型
香港大学及其合作机构的研究人员开发了一个名为 OpenCUA 的创新开源框架,为构建能够操作计算机的人工智能代理奠定了坚实的基础。这个全面的工具包为扩大计算机使用代理(CUA)的开发规模提供了基本组件,包括专用工具、广泛的训练数据集和经过验证的方法。
初步评估表明,与其他开源解决方案相比,使用 OpenCUA 训练的模型在 CUA 基准测试中取得了优异的性能,同时可与 OpenAI 和 Anthropic 等行业领先企业的专有系统相媲美。
开发计算机使用代理的复杂挑战
计算机使用代理代表了一种变革性的人工智能,旨在自主执行从简单的网络导航到复杂的软件操作等各种数字任务。这些智能系统在企业工作流程自动化方面具有巨大潜力,但大多数先进的计算机使用代理仍是专有黑盒。
"商业 CUAs 缺乏透明度限制了技术进步,并引发了重要的安全问题,"研究团队在发表的论文中指出。"科学界需要真正开放的框架,以正确调查能力、局限性和潜在风险"。
当前的开源计划面临着重大障碍,包括
- 大规模、多样化数据收集的基础设施不足
- 高质量图形用户界面交互数据集的可用性有限
- 文档不足,导致研究难以复制
正如本文所述"这些制约因素共同阻碍了通用 CUAs 的发展,妨碍了对其可扩展性、泛化能力和最佳学习方法的全面探索"。
介绍 OpenCUA 框架

*OpenCUA架构概述(来源:香港大学XLANG实验室)*。 OpenCUA 框架引入了一个综合解决方案,以应对数据收集和模型训练方面的挑战。其核心组件是 AgentNet 工具--可在多个操作系统中捕捉详细人机交互信息的专用软件。

*AgentNet数据收集工具(来源:香港大学XLang实验室)*。 这一创新工具可在后台悄然运行,并进行记录:
- 屏幕活动视频
- 精确的鼠标/键盘输入
- 定义屏幕元素的无障碍树结构
研究人员将这些原始交互数据处理成精炼的 "状态-动作轨迹",将计算机屏幕截图与相应的用户动作配对。由此产生的 AgentNet 数据集包含 22600 多个任务演示,横跨 Windows、macOS 和 Ubuntu 环境,以及 200 多个不同的应用程序和网站。
香港大学博士生研究员、该研究合著者王新元强调了他们严格的隐私保护措施:"我们实施了一个多层次的安全框架,允许注释者对其提交的内容进行完全的可见性和控制,然后在数据发布前进行人工验证和自动敏感内容扫描。
创新的培训方法

*OpenCUA的思维链推理过程(来源:香港大学XLang实验室) 该框架引入了一个新颖的数据处理管道,将已清理的状态-行动对与结构化的思维链推理相结合。这种方法可为每个动作生成详细的 "认知独白",其中包括
- 高级屏幕观察
- 战略分析和规划
- 精确的可执行指令
据 Wang 介绍,企业可以通过记录内部工作流程并应用相同的推理框架,调整这一管道,为专有系统培训专用代理。"他解释说:"这使企业能够开发高性能的定制代理,而无需手动创建推理跟踪。
基准性能和企业应用

*OpenCUA性能比较(来源:香港大学XLANG实验室) 在 OSWorld-Verified 基准测试中,320 亿参数 OpenCUA 模型在开源解决方案中取得了创纪录的性能,同时大大缩小了与领先专有系统的差距。企业的主要收获包括
- 框架适用于各种模型架构和规模
- 跨平台和任务类型的强大通用性
- 对重复性工作流程的自动化特别有效
Wang 强调了实施方面的挑战:"现实世界的部署需要强大的安全机制,以防止在任务执行过程中出现意外的系统修改或有害的副作用。
研究团队公开发布了所有框架组件,包括源代码、数据集和模型权重。随着 OpenCUA 驱动的代理的发展,它们可能会从根本上改变工作场所的动态,让人类员工专注于战略目标,而人工智能则负责操作执行。
相关文章
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文
最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量
相关专题推荐
评论 (1)
0/500
香港大学及其合作机构的研究人员开发了一个名为 OpenCUA 的创新开源框架,为构建能够操作计算机的人工智能代理奠定了坚实的基础。这个全面的工具包为扩大计算机使用代理(CUA)的开发规模提供了基本组件,包括专用工具、广泛的训练数据集和经过验证的方法。
初步评估表明,与其他开源解决方案相比,使用 OpenCUA 训练的模型在 CUA 基准测试中取得了优异的性能,同时可与 OpenAI 和 Anthropic 等行业领先企业的专有系统相媲美。
开发计算机使用代理的复杂挑战
计算机使用代理代表了一种变革性的人工智能,旨在自主执行从简单的网络导航到复杂的软件操作等各种数字任务。这些智能系统在企业工作流程自动化方面具有巨大潜力,但大多数先进的计算机使用代理仍是专有黑盒。
"商业 CUAs 缺乏透明度限制了技术进步,并引发了重要的安全问题,"研究团队在发表的论文中指出。"科学界需要真正开放的框架,以正确调查能力、局限性和潜在风险"。
当前的开源计划面临着重大障碍,包括
- 大规模、多样化数据收集的基础设施不足
- 高质量图形用户界面交互数据集的可用性有限
- 文档不足,导致研究难以复制
正如本文所述"这些制约因素共同阻碍了通用 CUAs 的发展,妨碍了对其可扩展性、泛化能力和最佳学习方法的全面探索"。
介绍 OpenCUA 框架

OpenCUA 框架引入了一个综合解决方案,以应对数据收集和模型训练方面的挑战。其核心组件是 AgentNet 工具--可在多个操作系统中捕捉详细人机交互信息的专用软件。

这一创新工具可在后台悄然运行,并进行记录:
- 屏幕活动视频
- 精确的鼠标/键盘输入
- 定义屏幕元素的无障碍树结构
研究人员将这些原始交互数据处理成精炼的 "状态-动作轨迹",将计算机屏幕截图与相应的用户动作配对。由此产生的 AgentNet 数据集包含 22600 多个任务演示,横跨 Windows、macOS 和 Ubuntu 环境,以及 200 多个不同的应用程序和网站。
香港大学博士生研究员、该研究合著者王新元强调了他们严格的隐私保护措施:"我们实施了一个多层次的安全框架,允许注释者对其提交的内容进行完全的可见性和控制,然后在数据发布前进行人工验证和自动敏感内容扫描。
创新的培训方法

该框架引入了一个新颖的数据处理管道,将已清理的状态-行动对与结构化的思维链推理相结合。这种方法可为每个动作生成详细的 "认知独白",其中包括
- 高级屏幕观察
- 战略分析和规划
- 精确的可执行指令
据 Wang 介绍,企业可以通过记录内部工作流程并应用相同的推理框架,调整这一管道,为专有系统培训专用代理。"他解释说:"这使企业能够开发高性能的定制代理,而无需手动创建推理跟踪。
基准性能和企业应用

在 OSWorld-Verified 基准测试中,320 亿参数 OpenCUA 模型在开源解决方案中取得了创纪录的性能,同时大大缩小了与领先专有系统的差距。企业的主要收获包括
- 框架适用于各种模型架构和规模
- 跨平台和任务类型的强大通用性
- 对重复性工作流程的自动化特别有效
Wang 强调了实施方面的挑战:"现实世界的部署需要强大的安全机制,以防止在任务执行过程中出现意外的系统修改或有害的副作用。
研究团队公开发布了所有框架组件,包括源代码、数据集和模型权重。随着 OpenCUA 驱动的代理的发展,它们可能会从根本上改变工作场所的动态,让人类员工专注于战略目标,而人工智能则负责操作执行。
Multiverse Computing推出免费压缩生成式AI模型
大型语言模型面临着一个重大挑战:其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题,旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起,开发者可在Hugging Face平台免费获取Multiverse增强版H
秘密追踪数据揭露人工智能模型被盗事件
一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理,无需重新训练,既不会在标准输出中留下痕迹,又能抵御所有实际的去除尝试。 水印技术与"版权诱饵"的关键区别在于:无论可见或隐形的水印,通常都设计为贯穿整个集合(如图像数据集)的持续性威慑手段,以防范随意复制。而虚构条目则是将一小段文本(通常为单词或定义)植入大型通用集合中,旨在证明盗用行为。其原理在于:当作品被直接盗用或作为衍生作品基础时,
人工智能系统被诱骗批准荒谬的科学论文
最新研究表明,人工智能系统现已能够生成虚假科学论文,且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法,凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡,面临崩溃风险。 具有讽刺意味的是,作为人工智能创新前沿的学术研究领域,正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来,其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量





首页






