人類的新AI模型運行像人類這樣的計算機,包括錯誤

您是否曾夢想過一個能像人類一樣與電腦無縫互動的AI?現在,這個夢想已成為現實,這要歸功於Anthropic的最新創新。週二,他們推出了新一代Claude AI模型,名為Claude 3.5 Sonnet,它能以驚人的精細度操作電腦。目前處於beta模式,開發者可通過API進行實驗。
Anthropic自豪地將Claude 3.5 Sonnet標榜為「首個公開beta版提供電腦使用的邊疆AI模型」。這意味著開發者可編程讓它在電腦上執行多種任務,如查看螢幕、移動游標、點擊按鈕,甚至在虛擬鍵盤上輸入。目標是?模仿我們每天與電腦的互動方式。
雖然這個新AI仍處於實驗階段,但並非沒有問題。它有時可能有些笨拙且易出錯。但這正是Anthropic推出beta版的原因——收集開發者的寶貴反饋,隨時間完善模型。
為什麼我們應該關心AI使用電腦?
Anthropic給出了明確答案:「現代工作的絕大部分通過電腦完成。」通過讓AI以人類的方式與軟體互動,它們開啟了當前AI助手無法處理的大量新應用。
開發者和用戶如何受益?
Anthropic並非為每個任務創建特定工具,而是教導Claude通用的電腦技能。這讓AI能使用為人類設計的各種標準軟體程式。開發者可利用這一能力自動化重複任務、構建和測試軟體,甚至進行研究。
多家公司已開始利用Claude 3.5 Sonnet的電腦技能,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company。例如,Replit正使用這些能力增強其Replit Agent產品。
他們如何訓練Claude使用電腦?
據Anthropic表示,訓練Claude操作電腦涉及大量試錯。這個過程需要AI理解並解釋電腦螢幕的圖像,然後根據看到的內容決定採取哪些行動。Claude 3.5 Sonnet通過分析螢幕截圖、計算像素以精確移動游標並發出滑鼠指令來實現這一點。
Claude的表現如何?
在OSWorld基準測試中,評估AI模型使用電腦的能力,Claude 3.5 Sonnet獲得14.9%的分數。雖然這遠低於人類70%-75%的表現,但幾乎是同類別中次佳AI模型7.7%的兩倍。
儘管有這些令人振奮的結果,Claude的電腦使用仍處於初級階段。它尚無法執行更複雜的任務,如拖動視窗或放大螢幕。此外,由於依賴螢幕截圖,它可能會錯過某些動作和通知。
Anthropic保持樂觀,聲明:「我們預期電腦使用將迅速改進,變得更快、更可靠且對用戶想完成的任務更有用。」他們還強調,隨著技術進步,它將對軟體開發經驗較少的人更易用,同時保持嚴格的安全措施。
Claude 3.5 Sonnet現已對所有人開放。開發者可通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI開始構建應用程式,體驗電腦使用beta版。
相關文章
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
相關專題推薦
評論 (8)
0/500
Когда ИИ начинает делать те же ошибки, что и я в работе с компьютером, это по-своему успокаивает 😂 Меня беспокоит, насколько мы готовы доверить программному обеспечению такое прямое взаимодействие с интерфейсом. Это ведь прямая дорога как к невероятной производительности, так и к полному хаосу, если что-то пойдет не так. Кажется, пора задуматься о новых 'правилах дорожного движения' для роботов-помощников.
Этот AI, который делает ошибки, как человек, звучит одновременно и забавно, и немного тревожно 😅 Получается, мы создали идеального цифрового стажёра, который тоже путает Ctrl+C и Ctrl+V? Интересно, как это повлияет на безопасность — вдруг он случайно удалит что-то важное, пытаясь 'помочь'?
Wow, Claude 3.5 Sonnet sounds like a game-changer! An AI that mimics human computer use, errors and all? That’s wild. I wonder how it handles my messy desktop and random browser tabs 😅. Super curious to see it in action!
This AI acting like a human on computers is wild! 😮 Makes me wonder if it’ll start rage-quitting when apps crash like I Elyse.

您是否曾夢想過一個能像人類一樣與電腦無縫互動的AI?現在,這個夢想已成為現實,這要歸功於Anthropic的最新創新。週二,他們推出了新一代Claude AI模型,名為Claude 3.5 Sonnet,它能以驚人的精細度操作電腦。目前處於beta模式,開發者可通過API進行實驗。
Anthropic自豪地將Claude 3.5 Sonnet標榜為「首個公開beta版提供電腦使用的邊疆AI模型」。這意味著開發者可編程讓它在電腦上執行多種任務,如查看螢幕、移動游標、點擊按鈕,甚至在虛擬鍵盤上輸入。目標是?模仿我們每天與電腦的互動方式。
雖然這個新AI仍處於實驗階段,但並非沒有問題。它有時可能有些笨拙且易出錯。但這正是Anthropic推出beta版的原因——收集開發者的寶貴反饋,隨時間完善模型。
為什麼我們應該關心AI使用電腦?
Anthropic給出了明確答案:「現代工作的絕大部分通過電腦完成。」通過讓AI以人類的方式與軟體互動,它們開啟了當前AI助手無法處理的大量新應用。
開發者和用戶如何受益?
Anthropic並非為每個任務創建特定工具,而是教導Claude通用的電腦技能。這讓AI能使用為人類設計的各種標準軟體程式。開發者可利用這一能力自動化重複任務、構建和測試軟體,甚至進行研究。
多家公司已開始利用Claude 3.5 Sonnet的電腦技能,包括Asana、Canva、Cognition、DoorDash、Replit和The Browser Company。例如,Replit正使用這些能力增強其Replit Agent產品。
他們如何訓練Claude使用電腦?
據Anthropic表示,訓練Claude操作電腦涉及大量試錯。這個過程需要AI理解並解釋電腦螢幕的圖像,然後根據看到的內容決定採取哪些行動。Claude 3.5 Sonnet通過分析螢幕截圖、計算像素以精確移動游標並發出滑鼠指令來實現這一點。
Claude的表現如何?
在OSWorld基準測試中,評估AI模型使用電腦的能力,Claude 3.5 Sonnet獲得14.9%的分數。雖然這遠低於人類70%-75%的表現,但幾乎是同類別中次佳AI模型7.7%的兩倍。
儘管有這些令人振奮的結果,Claude的電腦使用仍處於初級階段。它尚無法執行更複雜的任務,如拖動視窗或放大螢幕。此外,由於依賴螢幕截圖,它可能會錯過某些動作和通知。
Anthropic保持樂觀,聲明:「我們預期電腦使用將迅速改進,變得更快、更可靠且對用戶想完成的任務更有用。」他們還強調,隨著技術進步,它將對軟體開發經驗較少的人更易用,同時保持嚴格的安全措施。
Claude 3.5 Sonnet現已對所有人開放。開發者可通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI開始構建應用程式,體驗電腦使用beta版。
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
Когда ИИ начинает делать те же ошибки, что и я в работе с компьютером, это по-своему успокаивает 😂 Меня беспокоит, насколько мы готовы доверить программному обеспечению такое прямое взаимодействие с интерфейсом. Это ведь прямая дорога как к невероятной производительности, так и к полному хаосу, если что-то пойдет не так. Кажется, пора задуматься о новых 'правилах дорожного движения' для роботов-помощников.
Этот AI, который делает ошибки, как человек, звучит одновременно и забавно, и немного тревожно 😅 Получается, мы создали идеального цифрового стажёра, который тоже путает Ctrl+C и Ctrl+V? Интересно, как это повлияет на безопасность — вдруг он случайно удалит что-то важное, пытаясь 'помочь'?
Wow, Claude 3.5 Sonnet sounds like a game-changer! An AI that mimics human computer use, errors and all? That’s wild. I wonder how it handles my messy desktop and random browser tabs 😅. Super curious to see it in action!
This AI acting like a human on computers is wild! 😮 Makes me wonder if it’ll start rage-quitting when apps crash like I Elyse.





首頁






