Anthropicの新しいAIモデルは人間のようなコンピューターを操作し、エラーが含まれています

家

ニュース

2025年5月9日

PaulGonzalez

133

Anthropicの新しいAIモデルは人間のようなコンピューターを操作し、エラーが含まれています

あなたは、まるで人間のようになめらかにコンピュータと対話できるAIを夢見たことがありますか？その夢が、Anthropicの最新のイノベーションによって現実になりました。火曜日に、彼らはClaude AIモデルの新世代であるClaude 3.5 Sonnetを公開しました。このAIは驚くべき精度でコンピュータを操作できます。現在ベータ版で、開発者がAPIを通じて実験することができます。

AnthropicはClaude 3.5 Sonnetを「公開ベータでコンピュータ使用を提供する初のフロンティアAIモデル」と誇らしげに称しています。これは、開発者が画面の閲覧、カーソルの操作、ボタンのクリック、仮想キーボードでの入力など、さまざまなタスクをコンピュータ上で実行するようプログラムできることを意味します。目標は？私たちが毎日コンピュータと対話する方法を再現することです。

この新しいAIはまだ実験段階にあり、完全ではありません。時折、不器用でエラーが発生することがあります。しかし、Anthropicがベータ版を公開したのは、まさに開発者からの貴重なフィードバックを集め、モデルを時間とともに改良するためです。

なぜAIがコンピュータを使うことに注目すべきか？

Anthropicはこの質問に明確な答えを持っています。「現代の仕事の膨大な量がコンピュータを通じて行われています。」AIが人間と同じようにソフトウェアと対話できるようにすることで、現在のAIアシスタントでは対応できない数多くの新しいアプリケーションが解放されます。

開発者やユーザーはどのように恩恵を受けられるのか？

各タスクごとに専用ツールを作る代わりに、AnthropicはClaudeに一般的なコンピュータスキルを教えています。これにより、AIは人間向けに設計された幅広い標準ソフトウェアプログラムを利用できます。開発者はこの機能を利用して、繰り返し作業の自動化、ソフトウェアの構築とテスト、さらには研究を行うことができます。

Asana、Canva、Cognition、DoorDash、Replit、The Browser Companyなど、すでにいくつかの企業がClaude 3.5 Sonnetのコンピュータスキルを活用しています。たとえば、Replitはこの機能を使ってReplit Agent製品を強化しています。

Claudeはどのようにしてコンピュータの使い方を学んだのか？

Anthropicによると、Claudeにコンピュータの操作を教えるには多くの試行錯誤が必要でした。このプロセスでは、AIがコンピュータ画面の画像を理解し、解釈し、見たものに基づいてどのアクションを取るかを決定する必要があります。Claude 3.5 Sonnetは、スクリーンショットを分析し、ピクセルを数えてカーソルを正確に移動させ、マウスコマンドを発行することでこれを実現します。

Claudeのパフォーマンスはどの程度か？

AIモデルのコンピュータ使用能力を評価するOSWorldベンチマークテストでは、Claude 3.5 Sonnetは14.9%のスコアを達成しました。これは人間のレベルである70%～75%に比べると大幅に低いですが、同じカテゴリーの次に優れたAIモデルの7.7%のほぼ2倍です。

これらの有望な結果にもかかわらず、Claudeのコンピュータ使用はまだ初期段階です。ウィンドウのドラッグや画面のズームインなど、より複雑なタスクはまだ実行できません。また、スクリーンショットに依存しているため、特定のアクションや通知を見逃す可能性があります。

Anthropicは楽観的で、「コンピュータ使用は急速に改善し、より速く、信頼性が高く、ユーザーが望むタスクに対してより有用になるでしょう」と述べています。また、技術が進化するにつれて、ソフトウェア開発の経験が少ない人々にもアクセスしやすくなり、厳格な安全対策を維持しながら利用可能になると強調しています。

Claude 3.5 Sonnetは今、誰でも利用可能です。開発者はAnthropic API、Amazon Bedrock、Google CloudのVertex AIでコンピュータ使用ベータを利用してアプリケーションの構築を開始できます。

AIの評価にはベンチマークを超えた実世界でのパフォーマンス評価が必要 AIの進歩を追跡していれば、間違いなく記録的なベンチマーク性能を発表する見出しに遭遇したことがあるだろう。コンピュータ・ビジョンのタスクから医療診断に至るまで、こうした標準化されたテストは長い間、AIの能力を測る決定的な尺度として機能してきた。しかし、このような印象的なスコアは、しばしば重大な制限を覆い隠してしまう。管理されたベンチマークでは優秀なモデルでも、実際のユースケースに導入されると劇的に

無神論者と信奉者のAIが道徳論争で激突正反対の哲学的枠組みを持つ人工知能システムが倫理的な議論を交わしたとき、どのような洞察が生まれるのだろうか？この画期的な実験では、無神論者AIと信者AIの知的対決を演出し、神の存在に関する道徳的議論に焦点を当てた。読者は、洗練された哲学的言説に出会い、競合する論理的枠組みを分析し、15人の独立したAI裁判官が議論をどのように評価したかを観察する。単なる学問的演習にとどまらず、倫理システムの基礎と道

OpenAIがChatGPT Proをo3にアップグレード。今週は、マイクロソフト、グーグル、Anthropicを含むハイテク大手から重要なAIの開発が目撃された。OpenAIは、コードネーム "io "と呼ばれる野心的なハードウェア構想のために、注目されたジョニー・アイブのデザイン会社を65億ドルで買収したことにとどまらず、独自の画期的なアップデートで発表の慌ただしさを締めくくった。同社は、ChatGPT内のOperator自律ウェブ・ナビゲーション・シ

コメント (5)

0/200

提出する

WalterBaker

2025年8月28日 2:01:33 JST

Wow, Claude 3.5 Sonnet sounds like a game-changer! An AI that mimics human computer use, errors and all? That’s wild. I wonder how it handles my messy desktop and random browser tabs 😅. Super curious to see it in action!

JackWilson

2025年8月4日 15:01:00 JST

This AI acting like a human on computers is wild! 😮 Makes me wonder if it’ll start rage-quitting when apps crash like I Elyse.

JackMitchell

2025年7月31日 10:42:05 JST

Whoa, an AI that mimics human computer use, mistakes and all? That's wild! Wonder if Claude 3.5 Sonnet will accidentally open 20 browser tabs like I do. 😅 Curious to see how this plays out in real-world tasks!

JohnNelson

2025年7月29日 21:25:16 JST

Whoa, an AI that mimics human computer use, errors and all? That's wild! 😄 I wonder how it handles my chaotic desktop—probably better than me!

JuanLewis

2025年7月28日 10:19:30 JST

This AI acting like a human on computers is wild! 😮 Makes me wonder if it'll mess up my spreadsheets like my coworker does. Exciting stuff, but I hope it doesn't learn my bad habits too!

トップニュース

Gemini 2.5 ProはClaudeよりも無制限で安価で、GPT-4O 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 AIボイスオーバー：リアルな声制作究極ガイドカンビウムのAIは、廃棄物を木材に変換します Openaiは、より良いチャットのためにAIの音声アシスタントを強化します AI統合のためにデータが信頼できることを確認する方法 Notebooklmはグローバルに拡張し、スライドを追加し、ファクトチェックを強化します米国のデータセンターへの微調整は、76 GWの新しい電源容量のロックを解除できます GoogleはAIを利用して、詐欺の疑いのために3900万を超える広告アカウントを一時停止します AIボイスクローン：音声変換を極めるための完全ガイド

もっと

特集