OpenCUA 的开源人工智能代理挑战 OpenAI 和 Anthropic 的专有模型

首页

新闻

2025-11-04

ChristopherThomas

# LLMs

香港大学及其合作机构的研究人员开发了一个名为 OpenCUA 的创新开源框架，为构建能够操作计算机的人工智能代理奠定了坚实的基础。这个全面的工具包为扩大计算机使用代理（CUA）的开发规模提供了基本组件，包括专用工具、广泛的训练数据集和经过验证的方法。
初步评估表明，与其他开源解决方案相比，使用 OpenCUA 训练的模型在 CUA 基准测试中取得了优异的性能，同时可与 OpenAI 和 Anthropic 等行业领先企业的专有系统相媲美。

开发计算机使用代理的复杂挑战

计算机使用代理代表了一种变革性的人工智能，旨在自主执行从简单的网络导航到复杂的软件操作等各种数字任务。这些智能系统在企业工作流程自动化方面具有巨大潜力，但大多数先进的计算机使用代理仍是专有黑盒。

"商业 CUAs 缺乏透明度限制了技术进步，并引发了重要的安全问题，"研究团队在发表的论文中指出。"科学界需要真正开放的框架，以正确调查能力、局限性和潜在风险"。

当前的开源计划面临着重大障碍，包括

大规模、多样化数据收集的基础设施不足
高质量图形用户界面交互数据集的可用性有限
文档不足，导致研究难以复制

正如本文所述"这些制约因素共同阻碍了通用 CUAs 的发展，妨碍了对其可扩展性、泛化能力和最佳学习方法的全面探索"。

介绍 OpenCUA 框架

OpenCUA 框架引入了一个综合解决方案，以应对数据收集和模型训练方面的挑战。其核心组件是 AgentNet 工具--可在多个操作系统中捕捉详细人机交互信息的专用软件。

这一创新工具可在后台悄然运行，并进行记录：

屏幕活动视频
精确的鼠标/键盘输入
定义屏幕元素的无障碍树结构

研究人员将这些原始交互数据处理成精炼的 "状态-动作轨迹"，将计算机屏幕截图与相应的用户动作配对。由此产生的 AgentNet 数据集包含 22600 多个任务演示，横跨 Windows、macOS 和 Ubuntu 环境，以及 200 多个不同的应用程序和网站。

香港大学博士生研究员、该研究合著者王新元强调了他们严格的隐私保护措施："我们实施了一个多层次的安全框架，允许注释者对其提交的内容进行完全的可见性和控制，然后在数据发布前进行人工验证和自动敏感内容扫描。

创新的培训方法

该框架引入了一个新颖的数据处理管道，将已清理的状态-行动对与结构化的思维链推理相结合。这种方法可为每个动作生成详细的 "认知独白"，其中包括

高级屏幕观察
战略分析和规划
精确的可执行指令

据 Wang 介绍，企业可以通过记录内部工作流程并应用相同的推理框架，调整这一管道，为专有系统培训专用代理。"他解释说："这使企业能够开发高性能的定制代理，而无需手动创建推理跟踪。

基准性能和企业应用

在 OSWorld-Verified 基准测试中，320 亿参数 OpenCUA 模型在开源解决方案中取得了创纪录的性能，同时大大缩小了与领先专有系统的差距。企业的主要收获包括

框架适用于各种模型架构和规模
跨平台和任务类型的强大通用性
对重复性工作流程的自动化特别有效

Wang 强调了实施方面的挑战："现实世界的部署需要强大的安全机制，以防止在任务执行过程中出现意外的系统修改或有害的副作用。

研究团队公开发布了所有框架组件，包括源代码、数据集和模型权重。随着 OpenCUA 驱动的代理的发展，它们可能会从根本上改变工作场所的动态，让人类员工专注于战略目标，而人工智能则负责操作执行。

Multiverse Computing推出免费压缩生成式AI模型大型语言模型面临着一个重大挑战：其庞大的体量。西班牙初创公司Multiverse Computing正通过创建压缩模型来解决这一问题，旨在弥合尖端人工智能能力与企业实际可负担实施能力之间的差距。其核心创新在于CompactifAI压缩技术——这项受量子计算原理启发的技术已被这家巴斯克公司用于优化OpenAI的模型。从今天起，开发者可在Hugging Face平台免费获取Multiverse增强版H

秘密追踪数据揭露人工智能模型被盗事件一种新方法能在数秒内对ChatGPT等模型进行隐形水印处理，无需重新训练，既不会在标准输出中留下痕迹，又能抵御所有实际的去除尝试。水印技术与"版权诱饵"的关键区别在于：无论可见或隐形的水印，通常都设计为贯穿整个集合（如图像数据集）的持续性威慑手段，以防范随意复制。而虚构条目则是将一小段文本（通常为单词或定义）植入大型通用集合中，旨在证明盗用行为。其原理在于：当作品被直接盗用或作为衍生作品基础时，

人工智能系统被诱骗批准荒谬的科学论文最新研究表明，人工智能系统现已能够生成虚假科学论文，且其他AI模型会将其误认为真实研究。这些伪造的研究绕过了以往有效的检测方法，凸显出科研生态系统可能陷入机器人欺骗机器人的循环漩涡，面临崩溃风险。具有讽刺意味的是，作为人工智能创新前沿的学术研究领域，正面临着主要由人工智能引发的可信度危机。自四年前机器学习的潜在影响显现以来，其已深刻重塑了研究、投稿和同行评审流程。最新争议涉及低质量调查论文的批量

相关专题推荐

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

教育与学习

最佳AI数据科学导师：精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师，帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单，获得强大而具有变革性的指导。通过对比免费和付费选项，并结合实际应用案例进行了解，今天就开启你的数据科学精通之路吧。

10 个工具

xix.ai

聊天机器人

最佳AI调情与对话训练工具：实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具，查看免费版与付费版的对比，并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具

xix.ai

代码

最适合自动化单元测试的最佳AI工具：一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具，这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具，它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上，您可以免费查看各种选项，并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具，提升您的开发效率吧！

10 个工具

xix.ai

0/500

请登录后再操作

JuanJackson

2026-03-19 08:01:17

Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选