選項
首頁
新聞
人類的新AI模型運行像人類這樣的計算機,包括錯誤

人類的新AI模型運行像人類這樣的計算機,包括錯誤

2025-05-09
213

人類的新AI模型運行像人類這樣的計算機,包括錯誤

您是否曾夢想過一個能像人類一樣與電腦無縫互動的AI?現在,這個夢想已成為現實,這要歸功於Anthropic的最新創新。週二,他們推出了新一代Claude AI模型,名為Claude 3.5 Sonnet,它能以驚人的精細度操作電腦。目前處於beta模式,開發者可通過API進行實驗。

Anthropic自豪地將Claude 3.5 Sonnet標榜為「首個公開beta版提供電腦使用的邊疆AI模型」。這意味著開發者可編程讓它在電腦上執行多種任務,如查看螢幕、移動游標、點擊按鈕,甚至在虛擬鍵盤上輸入。目標是?模仿我們每天與電腦的互動方式。

雖然這個新AI仍處於實驗階段,但並非沒有問題。它有時可能有些笨拙且易出錯。但這正是Anthropic推出beta版的原因——收集開發者的寶貴反饋,隨時間完善模型。

為什麼我們應該關心AI使用電腦?

Anthropic給出了明確答案:「現代工作的絕大部分通過電腦完成。」通過讓AI以人類的方式與軟體互動,它們開啟了當前AI助手無法處理的大量新應用。

開發者和用戶如何受益?

Anthropic並非為每個任務創建特定工具,而是教導Claude通用的電腦技能。這讓AI能使用為人類設計的各種標準軟體程式。開發者可利用這一能力自動化重複任務、構建和測試軟體,甚至進行研究。

多家公司已開始利用Claude 3.5 Sonnet的電腦技能,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company。例如,Replit正使用這些能力增強其Replit Agent產品。

他們如何訓練Claude使用電腦?

據Anthropic表示,訓練Claude操作電腦涉及大量試錯。這個過程需要AI理解並解釋電腦螢幕的圖像,然後根據看到的內容決定採取哪些行動。Claude 3.5 Sonnet通過分析螢幕截圖、計算像素以精確移動游標並發出滑鼠指令來實現這一點。

Claude的表現如何?

在OSWorld基準測試中,評估AI模型使用電腦的能力,Claude 3.5 Sonnet獲得14.9%的分數。雖然這遠低於人類70%-75%的表現,但幾乎是同類別中次佳AI模型7.7%的兩倍。

儘管有這些令人振奮的結果,Claude的電腦使用仍處於初級階段。它尚無法執行更複雜的任務,如拖動視窗或放大螢幕。此外,由於依賴螢幕截圖,它可能會錯過某些動作和通知。

Anthropic保持樂觀,聲明:「我們預期電腦使用將迅速改進,變得更快、更可靠且對用戶想完成的任務更有用。」他們還強調,隨著技術進步,它將對軟體開發經驗較少的人更易用,同時保持嚴格的安全措施。

Claude 3.5 Sonnet現已對所有人開放。開發者可通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI開始構建應用程式,體驗電腦使用beta版。

相關文章
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易 Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易 隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出 DeepSeek Code 即將推出 隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢? 馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢? 伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
相關專題推薦
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
聊天機器人 最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信
最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單,能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具,並透過免費與付費版本的比較,以及每週更新的排行榜,立即解鎖您的社交優勢。

10 個工具
xix.ai
代碼 最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例
最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具,這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具,它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上,您可以免費檢視各種選項,並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具,提升您的開發效率吧!

10 個工具
xix.ai
評論 (8)
0/500
SophiaJones
SophiaJones 2026-04-11 08:00:43

這功能太酷了吧!讓AI操作電腦,感覺就像多了個超強助手。不過它也會犯錯這點挺真實的,反而讓人更放心?希望以後能幫忙處理那些重複又煩人的文書工作,解放雙手!🤖💻

PeterMiller
PeterMiller 2026-04-05 14:01:03

Когда ИИ начинает делать те же ошибки, что и я в работе с компьютером, это по-своему успокаивает 😂 Меня беспокоит, насколько мы готовы доверить программному обеспечению такое прямое взаимодействие с интерфейсом. Это ведь прямая дорога как к невероятной производительности, так и к полному хаосу, если что-то пойдет не так. Кажется, пора задуматься о новых 'правилах дорожного движения' для роботов-помощников.

KevinTaylor
KevinTaylor 2026-03-12 08:00:29

Этот AI, который делает ошибки, как человек, звучит одновременно и забавно, и немного тревожно 😅 Получается, мы создали идеального цифрового стажёра, который тоже путает Ctrl+C и Ctrl+V? Интересно, как это повлияет на безопасность — вдруг он случайно удалит что-то важное, пытаясь 'помочь'?

WalterBaker
WalterBaker 2025-08-28 01:01:33

Wow, Claude 3.5 Sonnet sounds like a game-changer! An AI that mimics human computer use, errors and all? That’s wild. I wonder how it handles my messy desktop and random browser tabs 😅. Super curious to see it in action!

JackWilson
JackWilson 2025-08-04 14:01:00

This AI acting like a human on computers is wild! 😮 Makes me wonder if it’ll start rage-quitting when apps crash like I Elyse.

JackMitchell
JackMitchell 2025-07-31 09:42:05

Whoa, an AI that mimics human computer use, mistakes and all? That's wild! Wonder if Claude 3.5 Sonnet will accidentally open 20 browser tabs like I do. 😅 Curious to see how this plays out in real-world tasks!

OR