人類の主張は、AIが失速しておらず、ベンチマークを抜いています

家

ニュース

2025年4月17日

ThomasYoung

161

人類の主張は、AIが失速しておらず、ベンチマークを抜いています

大規模言語モデル（LLM）やその他の生成AI技術は、自己修正において大きな進歩を遂げており、これが「エージェントAI」と呼ばれる新しいアプリケーションへの道を開いていると、主要なAIモデル開発企業であるAnthropicの副社長、マイケル・ガーステンハーバー氏は述べています。

「自己修正や自己推論が非常に優れてきています」と、AnthropicでAPI技術をリードするガーステンハーバー氏は、ニューヨークでのブルームバーグ・インテリジェンスのアヌラグ・ラナ氏とのインタビューで語りました。ClaudeファミリーのLLMを開発したAnthropicは、OpenAIのGPTモデルと直接競合しています。「数か月ごとに新しいモデルをリリースし、LLMの能力を拡張しています」と彼は付け加え、モデル改訂ごとに新たな可能性が開かれる業界のダイナミックな性質を強調しました。

AIモデルの新たな能力

Anthropicの最新モデルは、タスク計画などの能力を導入し、人間がコンピュータ上で行うようなタスク、例えばオンラインでピザを注文することなどを可能にしています。「昨日は実現不可能だった中間ステップの計画が、今では手の届くところにあります」とガーステンハーバー氏は、このステップごとのタスク実行について述べました。

この議論には、AIスタートアップScale AIの主任技術者ビジェイ・カルナムルティ氏も参加し、ブルームバーグ・インテリジェンスが主催する「生成AI：生産性の約束を果たせるか？」という一日会議の一部でした。

AI懐疑論への挑戦

ガーステンハーバー氏の洞察は、生成AIやより広範なAI分野が「壁にぶつかっている」と主張し、各モデルの反復で収益が減少していると考えるAI懐疑論者への挑戦です。例えば、AI学者のゲイリー・マーカス氏は2022年以来、AIモデル（パラメータの増加）の規模を大きくするだけでは性能が比例して向上しないと警告しています。

しかし、ガーステンハーバー氏は、Anthropicが現在のAIベンチマークで測定できる範囲を超えて限界を押し広げていると主張します。「一部の領域で進歩が遅れているように見えても、それは私たちが全く新しい機能を開拓しているからであり、ベンチマークや古いタスクの実行能力が飽和しているだけです」と彼は説明しました。これにより、現在の生成AIモデルが達成できることの全貌を測ることがますます難しくなっています。

スケーリングと学習

ガーステンハーバー氏とカルナムルティ氏は、生成AIモデルのスケーリングが自己修正能力を高めるために重要であると強調しました。「私たちは確実に知能のスケーリングがますます進んでいるのを見ています」とガーステンハーバー氏は述べました。カルナムルティ氏は、「計画や推論で壁にぶつかっていないと信じる理由の一つは、モデルが新しい多様な環境に適応できるようにタスクを構造化する方法をまだ学んでいるからです」と付け加えました。

ガーステンハーバー氏は同意し、「私たちは初期段階にあり、アプリケーション開発者から彼らのニーズやモデルが不足している部分を学び、それを言語モデルに統合しています」と述べました。

リアルタイム学習と適応

ガーステンハーバー氏によると、この進歩の多くは、Anthropicでの基礎研究の急速なペースと、業界からのリアルタイムのフィードバックによる学習によって推進されています。「業界が私たちに必要としていることを適応し、リアルタイムで学んでいます」と彼は述べました。

顧客はしばしば大きなモデルから始め、特定の目的に合わせてよりシンプルなモデルにスケールダウンします。「最初に、モデルがタスクを適切に実行できるほど賢いかどうかを評価し、次にアプリケーションのニーズを満たすほど速いか、そして最後に、可能な限りコスト効率が良いかを評価します」とガーステンハーバー氏は説明しました。

テンセントの「小龍蝦」が予想を上回る大ヒット、チームは生産能力を10倍に拡大し、謝罪と補償を実施テンセントは、あらゆるシナリオに対応するAIインテリジェントエージェント「WorkBuddy」を正式にリリースした。これは、高い統合性と低い導入ハードルを特徴とし、大規模モデルアプリケーション層における競争に新たな局面をもたらすものである。同製品はリリース当日から業界の注目を集めた。ユーザーアクセス数が予想を大幅に上回り、関連サービスである「Tencent Cloud Code Assistan

Sunoの筆頭投資家：投稿の削除では著作権訴訟の抜け穴を塞げない待望のAI音楽生成プラットフォーム「Suno」は、厳しい著作権をめぐる争いに直面しているが、同社の主要投資家による率直な発言が、相手側にとってまさに待ち望んでいた証拠を手にさせてしまった可能性がある。 Sunoの主要投資家であるMenlo Venturesのパートナー、C.C. Gong氏は先日、同社の現在の法的防御戦略と真っ向から矛盾するツイートを削除した。これまでの著作権訴訟において、Suno

「Claude Opus 4.7」がリリース、AIの知能よりも信頼性を重視 Anthropicは今年、ほぼ1日おきに新機能をリリースするなど、積極的なペースを維持しています。待望のClaude Opus 4.7がついに正式にリリースされましたが、興味深いことに、Anthropicは発表の中で「これは当社で最も強力なモデルではありません」と率直に述べています。噂されている、より強力な「Claude Mythos Preview」は依然として待機状態にある。それでも、Opu

関連特集おすすめ

漫画制作

少年漫画向けトップAIジェネレーター：迫力満点のアクションシーンやエネルギーエフェクトを作成

XIX.AIで、2026年のおすすめ少年漫画向けAIジェネレーターをご紹介します。厳選されたトップクラスのリストには、迫力満点のアクションシーンや躍動感あふれるエフェクトを作成できる強力なツールが揃っています。実際のテスト結果をもとに、無料版と有料版の比較も可能です。あなたの創造力を解き放ち、今日から壮大な漫画の制作を始めましょう！

15 ツール

xix.ai

仕事

おすすめのAI経費管理ツール：レシートをスキャンして、業務経費を自動分類

2026年最新・最高のAI経費管理ツール：レシートをスキャンし、法人経費を自動分類する高評価ツールをご紹介。手間いらずの経費管理、正確な財務追跡、コンプライアンス対応の効率化を実現する、画期的なソリューションをご覧ください。無料版と有料版の比較表は厳選され、毎週更新されるため、最適なツール選びにお役立ていただけます。XIX.AIの専門家が厳選したツールで、AIの力を最大限に活用しましょう。

10 ツール

xix.ai

仕事

おすすめのAI採用ツール：履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう！

10 ツール

xix.ai

生産性

AIパーソナルウェルネス＆集中力コーチ：バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス＆集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール

xix.ai

チャットボット

高評価のAI恋愛チャットボット：一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール

xix.ai

教育と学習

最高のAIデータサイエンスメンター：SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール

xix.ai

コメント (8)

0/500

最初にログインしてください

JoseRoberts

2025年8月13日 0:00:59 JST

This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?

WalterAnderson

2025年7月31日 20:35:39 JST

It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!

RonaldMartinez

2025年7月22日 16:39:52 JST

This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄

WillieJackson

2025年4月18日 16:00:28 JST

La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔

GeorgeWilson

2025年4月18日 2:45:24 JST

Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

NicholasCarter

2025年4月17日 20:27:31 JST

Anthropic's take on AI not stalling but outsmarting benchmarks is pretty cool. It's like AI is playing chess while we're still figuring out checkers. The self-correction stuff sounds promising, but I'm still a bit skeptical. 🤔

トップニュース

AI BuilderとPower Automateがドキュメントの要約を革新 AIホストのNotebooklm Podcastのホストは、インタビューに利用できるようになりました中国、国家ヒューマノイドロボット及び具現化された知能の基準を発表企業のAI導入は頭打ち、ランプのデータで明らかに Bing Image Creator チュートリアル: AIアート生成ガイドあなたの声を使用してAIミュージックを作成することを学ぶ：ステップバイステップSunoチュートリアル iMyFone MagicMic：リアルタイムAIボイスチェンジャーのレビューとチュートリアル 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 DeepSeek V4、マルチモーダルAIのゲームチェンジャーとして登場エンボディッド・インテリジェンス、無秩序な拡大を抑制するための初の業界標準を発表

もっと

特集