选项
首页
新闻
人类的新AI模型运行像人类这样的计算机,包括错误

人类的新AI模型运行像人类这样的计算机,包括错误

2025-05-09
133

人类的新AI模型运行像人类这样的计算机,包括错误

你是否梦想过一种能像人类一样无缝与电脑交互的AI?现在,这个梦想已成为现实,这要归功于Anthropic的最新创新。周二,他们推出了新一代Claude AI模型,名为Claude 3.5 Sonnet,它能以惊人的精细度操作电脑。目前处于测试阶段,此AI可供开发者通过API进行试验。

Anthropic自豪地将Claude 3.5 Sonnet称为“首个人公开测试中提供电脑使用功能的前沿AI模型”。这意味着开发者可编程让其在电脑上执行多种任务,如查看屏幕、移动光标、点击按钮,甚至在虚拟键盘上打字。目标是?复制我们每天与电脑的交互方式。

虽然这款新AI仍处于实验阶段,但并非没有瑕疵。它有时会显得有些笨拙和容易出错。但这正是Anthropic发布测试版的原因——从开发者那里收集宝贵反馈,并随时间完善模型。

为什么我们应该关心AI使用电脑?

Anthropic对此有明确答案:“现代工作的绝大部分通过电脑完成。”通过让AI以人类的方式与软件交互,它们开启了当前AI助手无法处理的大量新应用。

开发者和用户如何受益?

Anthropic没有为每个任务创建特定工具,而是教授Claude通用的电脑技能。这使AI能利用为人类设计的各种标准软件程序。开发者可利用此能力自动化重复任务、构建和测试软件,甚至进行研究。

多家公司已在利用Claude 3.5 Sonnet的电脑技能,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company。例如,Replit正利用这些能力增强其Replit Agent产品。

他们如何训练Claude使用电脑?

据Anthropic称,训练Claude导航电脑涉及大量试错。过程要求AI理解并解释电脑屏幕的图像,然后根据所见决定采取哪些行动。Claude 3.5 Sonnet通过分析屏幕截图、计算像素以精确移动光标并发出鼠标命令来实现这一点。

Claude的表现如何?

在OSWorld基准测试中,评估AI模型使用电脑的能力,Claude 3.5 Sonnet得分14.9%。虽然这远低于人类70%-75%的表现,但几乎是同类别次佳AI模型7.7%的两倍。

尽管这些结果令人振奋,Claude的电脑使用仍处于初级阶段。它尚无法执行更复杂的任务,如拖动窗口或缩放屏幕。此外,由于依赖屏幕截图,它可能错过某些动作和通知。

Anthropic保持乐观,表示:“我们预计电脑使用功能将迅速改进,变得更快、更可靠、对用户想完成的任务更有用。”他们还强调,随着技术发展,它将对软件开发经验较少的人更易用,同时保持严格的安全措施。

Claude 3.5 Sonnet现已对所有人开放。开发者可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上开始构建电脑使用测试版的应用。

相关文章
Manus 推出 Manus 推出 "广泛研究 "人工智能工具,100 多个代理可进行网络搜索 中国人工智能创新企业 Manus 曾因其面向消费者和专业用户的开创性多代理编排平台而备受关注,如今它又推出了一项突破性的技术应用,对传统的人工智能研究方法提出了挑战。重新思考人工智能驱动的研究OpenAI、谷歌和 xAI 等竞争对手开发了专门的 "深度研究"(Deep Research)代理,能够进行长达数小时的调查并生成详细的报告,与之不同的是,Manus 通过其新的 "广度研究"(Wide R
法学硕士为何无视指示以及如何有效解决这一问题 法学硕士为何无视指示以及如何有效解决这一问题 了解大型语言模型跳过指令的原因大型语言模型(LLM)改变了我们与人工智能的交互方式,使从对话界面到自动内容生成和编程辅助等各种高级应用成为可能。然而,用户经常会遇到一个令人沮丧的限制:这些模型偶尔会忽略特定指令,尤其是在复杂或冗长的提示中。这种任务执行不完整的问题不仅会影响输出质量,还会降低用户对这些系统的信心。研究这种行为背后的根本原因,可以为优化 LLM 交互提供有价值的见解。LLM 处
经过法律诉讼,Pebble 重新获得了原品牌名称 经过法律诉讼,Pebble 重新获得了原品牌名称 鹅卵石的回归名称与一切Pebble 的爱好者们可以欢呼雀跃了--这个备受喜爱的智能手表品牌不仅卷土重来,还夺回了自己的标志性名称。"Core Devices 公司首席执行官 Eric Migicovsky 在公司博客更新中透露:"我们已经成功地重新获得了 Pebble 商标,其顺利程度着实让我感到惊讶。这意味着之前发布的 Core 2 Duo 现在将正式命名为 Pebble 2 Duo,而 Cor
评论 (5)
0/200
WalterBaker
WalterBaker 2025-08-28 01:01:33

Wow, Claude 3.5 Sonnet sounds like a game-changer! An AI that mimics human computer use, errors and all? That’s wild. I wonder how it handles my messy desktop and random browser tabs 😅. Super curious to see it in action!

JackWilson
JackWilson 2025-08-04 14:01:00

This AI acting like a human on computers is wild! 😮 Makes me wonder if it’ll start rage-quitting when apps crash like I Elyse.

JackMitchell
JackMitchell 2025-07-31 09:42:05

Whoa, an AI that mimics human computer use, mistakes and all? That's wild! Wonder if Claude 3.5 Sonnet will accidentally open 20 browser tabs like I do. 😅 Curious to see how this plays out in real-world tasks!

JohnNelson
JohnNelson 2025-07-29 20:25:16

Whoa, an AI that mimics human computer use, errors and all? That's wild! 😄 I wonder how it handles my chaotic desktop—probably better than me!

JuanLewis
JuanLewis 2025-07-28 09:19:30

This AI acting like a human on computers is wild! 😮 Makes me wonder if it'll mess up my spreadsheets like my coworker does. Exciting stuff, but I hope it doesn't learn my bad habits too!

返回顶部
OR