人類の主張は、AIが失速しておらず、ベンチマークを抜いています

大規模言語モデル(LLM)やその他の生成AI技術は、自己修正において大きな進歩を遂げており、これが「エージェントAI」と呼ばれる新しいアプリケーションへの道を開いていると、主要なAIモデル開発企業であるAnthropicの副社長、マイケル・ガーステンハーバー氏は述べています。
「自己修正や自己推論が非常に優れてきています」と、AnthropicでAPI技術をリードするガーステンハーバー氏は、ニューヨークでのブルームバーグ・インテリジェンスのアヌラグ・ラナ氏とのインタビューで語りました。ClaudeファミリーのLLMを開発したAnthropicは、OpenAIのGPTモデルと直接競合しています。「数か月ごとに新しいモデルをリリースし、LLMの能力を拡張しています」と彼は付け加え、モデル改訂ごとに新たな可能性が開かれる業界のダイナミックな性質を強調しました。
AIモデルの新たな能力
Anthropicの最新モデルは、タスク計画などの能力を導入し、人間がコンピュータ上で行うようなタスク、例えばオンラインでピザを注文することなどを可能にしています。「昨日は実現不可能だった中間ステップの計画が、今では手の届くところにあります」とガーステンハーバー氏は、このステップごとのタスク実行について述べました。
この議論には、AIスタートアップScale AIの主任技術者ビジェイ・カルナムルティ氏も参加し、ブルームバーグ・インテリジェンスが主催する「生成AI:生産性の約束を果たせるか?」という一日会議の一部でした。
AI懐疑論への挑戦
ガーステンハーバー氏の洞察は、生成AIやより広範なAI分野が「壁にぶつかっている」と主張し、各モデルの反復で収益が減少していると考えるAI懐疑論者への挑戦です。例えば、AI学者のゲイリー・マーカス氏は2022年以来、AIモデル(パラメータの増加)の規模を大きくするだけでは性能が比例して向上しないと警告しています。
しかし、ガーステンハーバー氏は、Anthropicが現在のAIベンチマークで測定できる範囲を超えて限界を押し広げていると主張します。「一部の領域で進歩が遅れているように見えても、それは私たちが全く新しい機能を開拓しているからであり、ベンチマークや古いタスクの実行能力が飽和しているだけです」と彼は説明しました。これにより、現在の生成AIモデルが達成できることの全貌を測ることがますます難しくなっています。
スケーリングと学習
ガーステンハーバー氏とカルナムルティ氏は、生成AIモデルのスケーリングが自己修正能力を高めるために重要であると強調しました。「私たちは確実に知能のスケーリングがますます進んでいるのを見ています」とガーステンハーバー氏は述べました。カルナムルティ氏は、「計画や推論で壁にぶつかっていないと信じる理由の一つは、モデルが新しい多様な環境に適応できるようにタスクを構造化する方法をまだ学んでいるからです」と付け加えました。
ガーステンハーバー氏は同意し、「私たちは初期段階にあり、アプリケーション開発者から彼らのニーズやモデルが不足している部分を学び、それを言語モデルに統合しています」と述べました。
リアルタイム学習と適応
ガーステンハーバー氏によると、この進歩の多くは、Anthropicでの基礎研究の急速なペースと、業界からのリアルタイムのフィードバックによる学習によって推進されています。「業界が私たちに必要としていることを適応し、リアルタイムで学んでいます」と彼は述べました。
顧客はしばしば大きなモデルから始め、特定の目的に合わせてよりシンプルなモデルにスケールダウンします。「最初に、モデルがタスクを適切に実行できるほど賢いかどうかを評価し、次にアプリケーションのニーズを満たすほど速いか、そして最後に、可能な限りコスト効率が良いかを評価します」とガーステンハーバー氏は説明しました。
関連記事
テンセントの「小龍蝦」が予想を上回る大ヒット、チームは生産能力を10倍に拡大し、謝罪と補償を実施
テンセントは、あらゆるシナリオに対応するAIインテリジェントエージェント「WorkBuddy」を正式にリリースした。これは、高い統合性と低い導入ハードルを特徴とし、大規模モデルアプリケーション層における競争に新たな局面をもたらすものである。同製品はリリース当日から業界の注目を集めた。 ユーザーアクセス数が予想を大幅に上回り、関連サービスである「Tencent Cloud Code Assistan
Sunoの筆頭投資家:投稿の削除では著作権訴訟の抜け穴を塞げない
待望のAI音楽生成プラットフォーム「Suno」は、厳しい著作権をめぐる争いに直面しているが、同社の主要投資家による率直な発言が、相手側にとってまさに待ち望んでいた証拠を手にさせてしまった可能性がある。 Sunoの主要投資家であるMenlo Venturesのパートナー、C.C. Gong氏は先日、同社の現在の法的防御戦略と真っ向から矛盾するツイートを削除した。これまでの著作権訴訟において、Suno
「Claude Opus 4.7」がリリース、AIの知能よりも信頼性を重視
Anthropicは今年、ほぼ1日おきに新機能をリリースするなど、積極的なペースを維持しています。待望のClaude Opus 4.7がついに正式にリリースされましたが、興味深いことに、Anthropicは発表の中で「これは当社で最も強力なモデルではありません」と率直に述べています。 噂されている、より強力な「Claude Mythos Preview」は依然として待機状態にある。それでも、Opu
関連特集おすすめ
コメント (8)
0/500
This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?
It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!
This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄
La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔
Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔

大規模言語モデル(LLM)やその他の生成AI技術は、自己修正において大きな進歩を遂げており、これが「エージェントAI」と呼ばれる新しいアプリケーションへの道を開いていると、主要なAIモデル開発企業であるAnthropicの副社長、マイケル・ガーステンハーバー氏は述べています。
「自己修正や自己推論が非常に優れてきています」と、AnthropicでAPI技術をリードするガーステンハーバー氏は、ニューヨークでのブルームバーグ・インテリジェンスのアヌラグ・ラナ氏とのインタビューで語りました。ClaudeファミリーのLLMを開発したAnthropicは、OpenAIのGPTモデルと直接競合しています。「数か月ごとに新しいモデルをリリースし、LLMの能力を拡張しています」と彼は付け加え、モデル改訂ごとに新たな可能性が開かれる業界のダイナミックな性質を強調しました。
AIモデルの新たな能力
Anthropicの最新モデルは、タスク計画などの能力を導入し、人間がコンピュータ上で行うようなタスク、例えばオンラインでピザを注文することなどを可能にしています。「昨日は実現不可能だった中間ステップの計画が、今では手の届くところにあります」とガーステンハーバー氏は、このステップごとのタスク実行について述べました。
この議論には、AIスタートアップScale AIの主任技術者ビジェイ・カルナムルティ氏も参加し、ブルームバーグ・インテリジェンスが主催する「生成AI:生産性の約束を果たせるか?」という一日会議の一部でした。
AI懐疑論への挑戦
ガーステンハーバー氏の洞察は、生成AIやより広範なAI分野が「壁にぶつかっている」と主張し、各モデルの反復で収益が減少していると考えるAI懐疑論者への挑戦です。例えば、AI学者のゲイリー・マーカス氏は2022年以来、AIモデル(パラメータの増加)の規模を大きくするだけでは性能が比例して向上しないと警告しています。
しかし、ガーステンハーバー氏は、Anthropicが現在のAIベンチマークで測定できる範囲を超えて限界を押し広げていると主張します。「一部の領域で進歩が遅れているように見えても、それは私たちが全く新しい機能を開拓しているからであり、ベンチマークや古いタスクの実行能力が飽和しているだけです」と彼は説明しました。これにより、現在の生成AIモデルが達成できることの全貌を測ることがますます難しくなっています。
スケーリングと学習
ガーステンハーバー氏とカルナムルティ氏は、生成AIモデルのスケーリングが自己修正能力を高めるために重要であると強調しました。「私たちは確実に知能のスケーリングがますます進んでいるのを見ています」とガーステンハーバー氏は述べました。カルナムルティ氏は、「計画や推論で壁にぶつかっていないと信じる理由の一つは、モデルが新しい多様な環境に適応できるようにタスクを構造化する方法をまだ学んでいるからです」と付け加えました。
ガーステンハーバー氏は同意し、「私たちは初期段階にあり、アプリケーション開発者から彼らのニーズやモデルが不足している部分を学び、それを言語モデルに統合しています」と述べました。
リアルタイム学習と適応
ガーステンハーバー氏によると、この進歩の多くは、Anthropicでの基礎研究の急速なペースと、業界からのリアルタイムのフィードバックによる学習によって推進されています。「業界が私たちに必要としていることを適応し、リアルタイムで学んでいます」と彼は述べました。
顧客はしばしば大きなモデルから始め、特定の目的に合わせてよりシンプルなモデルにスケールダウンします。「最初に、モデルがタスクを適切に実行できるほど賢いかどうかを評価し、次にアプリケーションのニーズを満たすほど速いか、そして最後に、可能な限りコスト効率が良いかを評価します」とガーステンハーバー氏は説明しました。
テンセントの「小龍蝦」が予想を上回る大ヒット、チームは生産能力を10倍に拡大し、謝罪と補償を実施
テンセントは、あらゆるシナリオに対応するAIインテリジェントエージェント「WorkBuddy」を正式にリリースした。これは、高い統合性と低い導入ハードルを特徴とし、大規模モデルアプリケーション層における競争に新たな局面をもたらすものである。同製品はリリース当日から業界の注目を集めた。 ユーザーアクセス数が予想を大幅に上回り、関連サービスである「Tencent Cloud Code Assistan
Sunoの筆頭投資家:投稿の削除では著作権訴訟の抜け穴を塞げない
待望のAI音楽生成プラットフォーム「Suno」は、厳しい著作権をめぐる争いに直面しているが、同社の主要投資家による率直な発言が、相手側にとってまさに待ち望んでいた証拠を手にさせてしまった可能性がある。 Sunoの主要投資家であるMenlo Venturesのパートナー、C.C. Gong氏は先日、同社の現在の法的防御戦略と真っ向から矛盾するツイートを削除した。これまでの著作権訴訟において、Suno
「Claude Opus 4.7」がリリース、AIの知能よりも信頼性を重視
Anthropicは今年、ほぼ1日おきに新機能をリリースするなど、積極的なペースを維持しています。待望のClaude Opus 4.7がついに正式にリリースされましたが、興味深いことに、Anthropicは発表の中で「これは当社で最も強力なモデルではありません」と率直に述べています。 噂されている、より強力な「Claude Mythos Preview」は依然として待機状態にある。それでも、Opu
This self-correction stuff is wild! 😮 It's like AI is learning to double-check its own homework. Wonder how far this 'agentic AI' will go—could it outsmart us at our own jobs soon?
It's wild to think AI can now self-correct! 😮 Makes me wonder how soon we'll see these 'agentic AI' systems running our lives—hope they don’t outsmart us too much!
This article really opened my eyes to how fast AI is evolving! Self-correcting LLMs sound like a game-changer for agentic AI. Can’t wait to see what new apps come out of this! 😄
La perspectiva de Anthropic sobre que la IA no se estanca sino que supera los benchmarks es bastante genial. Es como si la IA estuviera jugando ajedrez mientras nosotros aún estamos tratando de entender las damas. Lo de la autocorrección suena prometedor, pero aún estoy un poco escéptico. 🤔
Anthropic의 AI가 정체되지 않고 벤치마크를 뛰어넘는다는 생각이 멋지네요. AI는 체스를 하고 있는데, 우리는 아직 체커를 이해하는 단계예요. 자기 교정 이야기는 유망하지만, 아직 조금 회의적이에요. 🤔





家






