Anthropicの新しいAIモデルは人間のようなコンピューターを操作し、エラーが含まれています

あなたは、まるで人間のようになめらかにコンピュータと対話できるAIを夢見たことがありますか?その夢が、Anthropicの最新のイノベーションによって現実になりました。火曜日に、彼らはClaude AIモデルの新世代であるClaude 3.5 Sonnetを公開しました。このAIは驚くべき精度でコンピュータを操作できます。現在ベータ版で、開発者がAPIを通じて実験することができます。
AnthropicはClaude 3.5 Sonnetを「公開ベータでコンピュータ使用を提供する初のフロンティアAIモデル」と誇らしげに称しています。これは、開発者が画面の閲覧、カーソルの操作、ボタンのクリック、仮想キーボードでの入力など、さまざまなタスクをコンピュータ上で実行するようプログラムできることを意味します。目標は?私たちが毎日コンピュータと対話する方法を再現することです。
この新しいAIはまだ実験段階にあり、完全ではありません。時折、不器用でエラーが発生することがあります。しかし、Anthropicがベータ版を公開したのは、まさに開発者からの貴重なフィードバックを集め、モデルを時間とともに改良するためです。
なぜAIがコンピュータを使うことに注目すべきか?
Anthropicはこの質問に明確な答えを持っています。「現代の仕事の膨大な量がコンピュータを通じて行われています。」AIが人間と同じようにソフトウェアと対話できるようにすることで、現在のAIアシスタントでは対応できない数多くの新しいアプリケーションが解放されます。
開発者やユーザーはどのように恩恵を受けられるのか?
各タスクごとに専用ツールを作る代わりに、AnthropicはClaudeに一般的なコンピュータスキルを教えています。これにより、AIは人間向けに設計された幅広い標準ソフトウェアプログラムを利用できます。開発者はこの機能を利用して、繰り返し作業の自動化、ソフトウェアの構築とテスト、さらには研究を行うことができます。
Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyなど、すでにいくつかの企業がClaude 3.5 Sonnetのコンピュータスキルを活用しています。たとえば、Replitはこの機能を使ってReplit Agent製品を強化しています。
Claudeはどのようにしてコンピュータの使い方を学んだのか?
Anthropicによると、Claudeにコンピュータの操作を教えるには多くの試行錯誤が必要でした。このプロセスでは、AIがコンピュータ画面の画像を理解し、解釈し、見たものに基づいてどのアクションを取るかを決定する必要があります。Claude 3.5 Sonnetは、スクリーンショットを分析し、ピクセルを数えてカーソルを正確に移動させ、マウスコマンドを発行することでこれを実現します。
Claudeのパフォーマンスはどの程度か?
AIモデルのコンピュータ使用能力を評価するOSWorldベンチマークテストでは、Claude 3.5 Sonnetは14.9%のスコアを達成しました。これは人間のレベルである70%~75%に比べると大幅に低いですが、同じカテゴリーの次に優れたAIモデルの7.7%のほぼ2倍です。
これらの有望な結果にもかかわらず、Claudeのコンピュータ使用はまだ初期段階です。ウィンドウのドラッグや画面のズームインなど、より複雑なタスクはまだ実行できません。また、スクリーンショットに依存しているため、特定のアクションや通知を見逃す可能性があります。
Anthropicは楽観的で、「コンピュータ使用は急速に改善し、より速く、信頼性が高く、ユーザーが望むタスクに対してより有用になるでしょう」と述べています。また、技術が進化するにつれて、ソフトウェア開発の経験が少ない人々にもアクセスしやすくなり、厳格な安全対策を維持しながら利用可能になると強調しています。
Claude 3.5 Sonnetは今、誰でも利用可能です。開発者はAnthropic API、Amazon Bedrock、Google CloudのVertex AIでコンピュータ使用ベータを利用してアプリケーションの構築を開始できます。
関連記事
AIの評価にはベンチマークを超えた実世界でのパフォーマンス評価が必要
AIの進歩を追跡していれば、間違いなく記録的なベンチマーク性能を発表する見出しに遭遇したことがあるだろう。コンピュータ・ビジョンのタスクから医療診断に至るまで、こうした標準化されたテストは長い間、AIの能力を測る決定的な尺度として機能してきた。しかし、このような印象的なスコアは、しばしば重大な制限を覆い隠してしまう。管理されたベンチマークでは優秀なモデルでも、実際のユースケースに導入されると劇的に
無神論者と信奉者のAIが道徳論争で激突
正反対の哲学的枠組みを持つ人工知能システムが倫理的な議論を交わしたとき、どのような洞察が生まれるのだろうか?この画期的な実験では、無神論者AIと信者AIの知的対決を演出し、神の存在に関する道徳的議論に焦点を当てた。読者は、洗練された哲学的言説に出会い、競合する論理的枠組みを分析し、15人の独立したAI裁判官が議論をどのように評価したかを観察する。単なる学問的演習にとどまらず、倫理システムの基礎と道
OpenAIがChatGPT Proをo3にアップグレード。
今週は、マイクロソフト、グーグル、Anthropicを含むハイテク大手から重要なAIの開発が目撃された。OpenAIは、コードネーム "io "と呼ばれる野心的なハードウェア構想のために、注目されたジョニー・アイブのデザイン会社を65億ドルで買収したことにとどまらず、独自の画期的なアップデートで発表の慌ただしさを締めくくった。同社は、ChatGPT内のOperator自律ウェブ・ナビゲーション・シ
コメント (5)
0/200
WalterBaker
2025年8月28日 2:01:33 JST
Wow, Claude 3.5 Sonnet sounds like a game-changer! An AI that mimics human computer use, errors and all? That’s wild. I wonder how it handles my messy desktop and random browser tabs 😅. Super curious to see it in action!
0
JackWilson
2025年8月4日 15:01:00 JST
This AI acting like a human on computers is wild! 😮 Makes me wonder if it’ll start rage-quitting when apps crash like I Elyse.
0
JackMitchell
2025年7月31日 10:42:05 JST
Whoa, an AI that mimics human computer use, mistakes and all? That's wild! Wonder if Claude 3.5 Sonnet will accidentally open 20 browser tabs like I do. 😅 Curious to see how this plays out in real-world tasks!
0
JohnNelson
2025年7月29日 21:25:16 JST
Whoa, an AI that mimics human computer use, errors and all? That's wild! 😄 I wonder how it handles my chaotic desktop—probably better than me!
0
JuanLewis
2025年7月28日 10:19:30 JST
This AI acting like a human on computers is wild! 😮 Makes me wonder if it'll mess up my spreadsheets like my coworker does. Exciting stuff, but I hope it doesn't learn my bad habits too!
0
あなたは、まるで人間のようになめらかにコンピュータと対話できるAIを夢見たことがありますか?その夢が、Anthropicの最新のイノベーションによって現実になりました。火曜日に、彼らはClaude AIモデルの新世代であるClaude 3.5 Sonnetを公開しました。このAIは驚くべき精度でコンピュータを操作できます。現在ベータ版で、開発者がAPIを通じて実験することができます。
AnthropicはClaude 3.5 Sonnetを「公開ベータでコンピュータ使用を提供する初のフロンティアAIモデル」と誇らしげに称しています。これは、開発者が画面の閲覧、カーソルの操作、ボタンのクリック、仮想キーボードでの入力など、さまざまなタスクをコンピュータ上で実行するようプログラムできることを意味します。目標は?私たちが毎日コンピュータと対話する方法を再現することです。
この新しいAIはまだ実験段階にあり、完全ではありません。時折、不器用でエラーが発生することがあります。しかし、Anthropicがベータ版を公開したのは、まさに開発者からの貴重なフィードバックを集め、モデルを時間とともに改良するためです。
なぜAIがコンピュータを使うことに注目すべきか?
Anthropicはこの質問に明確な答えを持っています。「現代の仕事の膨大な量がコンピュータを通じて行われています。」AIが人間と同じようにソフトウェアと対話できるようにすることで、現在のAIアシスタントでは対応できない数多くの新しいアプリケーションが解放されます。
開発者やユーザーはどのように恩恵を受けられるのか?
各タスクごとに専用ツールを作る代わりに、AnthropicはClaudeに一般的なコンピュータスキルを教えています。これにより、AIは人間向けに設計された幅広い標準ソフトウェアプログラムを利用できます。開発者はこの機能を利用して、繰り返し作業の自動化、ソフトウェアの構築とテスト、さらには研究を行うことができます。
Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyなど、すでにいくつかの企業がClaude 3.5 Sonnetのコンピュータスキルを活用しています。たとえば、Replitはこの機能を使ってReplit Agent製品を強化しています。
Claudeはどのようにしてコンピュータの使い方を学んだのか?
Anthropicによると、Claudeにコンピュータの操作を教えるには多くの試行錯誤が必要でした。このプロセスでは、AIがコンピュータ画面の画像を理解し、解釈し、見たものに基づいてどのアクションを取るかを決定する必要があります。Claude 3.5 Sonnetは、スクリーンショットを分析し、ピクセルを数えてカーソルを正確に移動させ、マウスコマンドを発行することでこれを実現します。
Claudeのパフォーマンスはどの程度か?
AIモデルのコンピュータ使用能力を評価するOSWorldベンチマークテストでは、Claude 3.5 Sonnetは14.9%のスコアを達成しました。これは人間のレベルである70%~75%に比べると大幅に低いですが、同じカテゴリーの次に優れたAIモデルの7.7%のほぼ2倍です。
これらの有望な結果にもかかわらず、Claudeのコンピュータ使用はまだ初期段階です。ウィンドウのドラッグや画面のズームインなど、より複雑なタスクはまだ実行できません。また、スクリーンショットに依存しているため、特定のアクションや通知を見逃す可能性があります。
Anthropicは楽観的で、「コンピュータ使用は急速に改善し、より速く、信頼性が高く、ユーザーが望むタスクに対してより有用になるでしょう」と述べています。また、技術が進化するにつれて、ソフトウェア開発の経験が少ない人々にもアクセスしやすくなり、厳格な安全対策を維持しながら利用可能になると強調しています。
Claude 3.5 Sonnetは今、誰でも利用可能です。開発者はAnthropic API、Amazon Bedrock、Google CloudのVertex AIでコンピュータ使用ベータを利用してアプリケーションの構築を開始できます。



Wow, Claude 3.5 Sonnet sounds like a game-changer! An AI that mimics human computer use, errors and all? That’s wild. I wonder how it handles my messy desktop and random browser tabs 😅. Super curious to see it in action!




This AI acting like a human on computers is wild! 😮 Makes me wonder if it’ll start rage-quitting when apps crash like I Elyse.




Whoa, an AI that mimics human computer use, mistakes and all? That's wild! Wonder if Claude 3.5 Sonnet will accidentally open 20 browser tabs like I do. 😅 Curious to see how this plays out in real-world tasks!




Whoa, an AI that mimics human computer use, errors and all? That's wild! 😄 I wonder how it handles my chaotic desktop—probably better than me!




This AI acting like a human on computers is wild! 😮 Makes me wonder if it'll mess up my spreadsheets like my coworker does. Exciting stuff, but I hope it doesn't learn my bad habits too!












