「Claude Opus 4.7」がリリース、AIの知能よりも信頼性を重視
Anthropicは今年、ほぼ1日おきに新機能をリリースするなど、積極的なペースを維持しています。待望のClaude Opus 4.7がついに正式にリリースされましたが、興味深いことに、Anthropicは発表の中で「これは当社で最も強力なモデルではありません」と率直に述べています。 噂されている、より強力な「Claude Mythos Preview」は依然として待機状態にある。それでも、Opus 4.7は「より賢い」ことではなく「より信頼性が高い」という点に焦点を当てているため、大きな注目を集めている。

ベンチマークの結果は特に印象的です。厳格なコーディングベンチマークであるSWE-bench Proにおいて、 4.7は前バージョンの53.4%から64.3%へと約11ポイント上昇し、GPT-5.4(57.7%)やGemini 3.1 Pro(54.2%)を上回りました。 視覚推論ベンチマークのCharXivでは、新たに追加された2576ピクセルの長辺認識機能により、前バージョンの3倍以上の鮮明さを実現し、スコアは69.1%から82.1%へと上昇しました。 ツール呼び出し評価のMCP-Atlasでは77.3%を記録し、法務AIプラットフォームHarveyのBigLawベンチマークでは90.9%に達した。 しかし、能動的検索評価であるBrowseCompでは、4.7は83.7%から79.3%へとわずかに低下し、GPT-5.4やGeminiに追い抜かれた。これは、情報が不完全な場合に推測するよりもエラーを報告することを好む、「虚偽を述べない」という性格に起因している。
数字以上に注目すべきは、その気質の変容です。Replitのリーダーはテスト後に次のように述べた。「技術的な議論において私に挑戦を投げかけ、より良い意思決定を助け、まさに優れた同僚のように振る舞ってくれる。」データサイエンスプラットフォームのHexもまた、データが欠落している場合、4.7は以前のように「一見合理的だが完全に間違っている」代替値を提供するのではなく、エラーを直接報告することを確認した。 同時に、タスクの回復力も大幅に向上しました。Notion チームのテストによると、ツールのエラー率は以前の 3 分の 1 に低減し、ツールチェーンが失敗した場合でも、障害を乗り越えて自律的にタスクを完了できるようになりました。 Vercelはさらに、新たな挙動を発見しました。システムレベルのコードを記述する前に、4.7はまず独自に数学的証明を行うのです。

もちろん、機能の向上には代償が伴います。4.7では新しいトークナイザーが導入され、同じテキストに対して1.0~1.35倍のトークンが生成されます。さらに、複雑なタスクでは「少し長く考える」傾向があるため、実際の消費量はほぼ確実に増加します。 これに対処するため、Anthropicは「xhigh」という超高度な思考強度レベルを追加しました。Claude Codeではすべてのパッケージをデフォルトでこのレベルに設定しており、さらに開発者がトークン使用量を管理できるよう、「Deep Review」コマンド/ultrareview、Maxユーザー向けのAuto Mode拡張機能、および「タスク予算」機能のパブリックベータ版もリリースしました。
より高性能なMythos Previewは、サイバーセキュリティ研究向けに「Project Glasswing」という名称で企業向けに提供が開始されましたが、その圧倒的な能力とセキュリティ評価が未完了であるため、まだ一般公開されていません。
本日のバージョン4.7は、Anthropicの頻繁なリリースサイクルにおける最新のマイルストーンです。Mythosはいずれ登場することになるでしょう。そして、その日が来れば、すでに強力なバージョン4.7は、あくまで始まりに過ぎないことが証明されるかもしれません。
関連記事
Sunoの筆頭投資家:投稿の削除では著作権訴訟の抜け穴を塞げない
待望のAI音楽生成プラットフォーム「Suno」は、厳しい著作権をめぐる争いに直面しているが、同社の主要投資家による率直な発言が、相手側にとってまさに待ち望んでいた証拠を手にさせてしまった可能性がある。 Sunoの主要投資家であるMenlo Venturesのパートナー、C.C. Gong氏は先日、同社の現在の法的防御戦略と真っ向から矛盾するツイートを削除した。これまでの著作権訴訟において、Suno
ハイアール、重量わずか1.75kgの世界最軽量AIスポーツ用外骨格ロボットを発表
ハイアールグループは、スポーツ用として世界最軽量のAI搭載外骨格ロボット「ハイアール・エクソスケルトン・ロボット W3」を発表しました。この製品の発売により、軽量化において業界新記録を樹立し、軽量設計と人間の動作をインテリジェントに強化する技術において大きな飛躍を遂げました。高級素材が実現する超軽量設計W3は、フルカーボンファイバーとチタン合金を組み合わせた革新的な一体成型プロセスを採用しています
Yaoke Media初のAIGCドラマ『秦嶺の青銅の謎』が本日配信開始、AIが演じる主演キャストが登場
本日、Yaoke MediaのAIGCファンタジー・ミステリー短編ドラマ『秦嶺青銅の秘話』が正式に公開されました。同社が初めて契約した2人のAI俳優、秦凌月と林西燕燕が主演を務め、物語は謎に包まれた秦嶺の鉱山地帯を舞台に展開されます。 物語は、引退した諜報員・秦月がチームを率いてその奥深くへと入り込み、長年埋もれていた鉱山事故と、2世代にわたる血の生贄の真実を暴いていく様子を描きます。その真実は、
関連特集おすすめ
コメント (0)
0/500
Anthropicは今年、ほぼ1日おきに新機能をリリースするなど、積極的なペースを維持しています。待望のClaude Opus 4.7がついに正式にリリースされましたが、興味深いことに、Anthropicは発表の中で「これは当社で最も強力なモデルではありません」と率直に述べています。 噂されている、より強力な「Claude Mythos Preview」は依然として待機状態にある。それでも、Opus 4.7は「より賢い」ことではなく「より信頼性が高い」という点に焦点を当てているため、大きな注目を集めている。

ベンチマークの結果は特に印象的です。厳格なコーディングベンチマークであるSWE-bench Proにおいて、 4.7は前バージョンの53.4%から64.3%へと約11ポイント上昇し、GPT-5.4(57.7%)やGemini 3.1 Pro(54.2%)を上回りました。 視覚推論ベンチマークのCharXivでは、新たに追加された2576ピクセルの長辺認識機能により、前バージョンの3倍以上の鮮明さを実現し、スコアは69.1%から82.1%へと上昇しました。 ツール呼び出し評価のMCP-Atlasでは77.3%を記録し、法務AIプラットフォームHarveyのBigLawベンチマークでは90.9%に達した。 しかし、能動的検索評価であるBrowseCompでは、4.7は83.7%から79.3%へとわずかに低下し、GPT-5.4やGeminiに追い抜かれた。これは、情報が不完全な場合に推測するよりもエラーを報告することを好む、「虚偽を述べない」という性格に起因している。
数字以上に注目すべきは、その気質の変容です。Replitのリーダーはテスト後に次のように述べた。「技術的な議論において私に挑戦を投げかけ、より良い意思決定を助け、まさに優れた同僚のように振る舞ってくれる。」データサイエンスプラットフォームのHexもまた、データが欠落している場合、4.7は以前のように「一見合理的だが完全に間違っている」代替値を提供するのではなく、エラーを直接報告することを確認した。 同時に、タスクの回復力も大幅に向上しました。Notion チームのテストによると、ツールのエラー率は以前の 3 分の 1 に低減し、ツールチェーンが失敗した場合でも、障害を乗り越えて自律的にタスクを完了できるようになりました。 Vercelはさらに、新たな挙動を発見しました。システムレベルのコードを記述する前に、4.7はまず独自に数学的証明を行うのです。

もちろん、機能の向上には代償が伴います。4.7では新しいトークナイザーが導入され、同じテキストに対して1.0~1.35倍のトークンが生成されます。さらに、複雑なタスクでは「少し長く考える」傾向があるため、実際の消費量はほぼ確実に増加します。 これに対処するため、Anthropicは「xhigh」という超高度な思考強度レベルを追加しました。Claude Codeではすべてのパッケージをデフォルトでこのレベルに設定しており、さらに開発者がトークン使用量を管理できるよう、「Deep Review」コマンド/ultrareview、Maxユーザー向けのAuto Mode拡張機能、および「タスク予算」機能のパブリックベータ版もリリースしました。
より高性能なMythos Previewは、サイバーセキュリティ研究向けに「Project Glasswing」という名称で企業向けに提供が開始されましたが、その圧倒的な能力とセキュリティ評価が未完了であるため、まだ一般公開されていません。
本日のバージョン4.7は、Anthropicの頻繁なリリースサイクルにおける最新のマイルストーンです。Mythosはいずれ登場することになるでしょう。そして、その日が来れば、すでに強力なバージョン4.7は、あくまで始まりに過ぎないことが証明されるかもしれません。
Sunoの筆頭投資家:投稿の削除では著作権訴訟の抜け穴を塞げない
待望のAI音楽生成プラットフォーム「Suno」は、厳しい著作権をめぐる争いに直面しているが、同社の主要投資家による率直な発言が、相手側にとってまさに待ち望んでいた証拠を手にさせてしまった可能性がある。 Sunoの主要投資家であるMenlo Venturesのパートナー、C.C. Gong氏は先日、同社の現在の法的防御戦略と真っ向から矛盾するツイートを削除した。これまでの著作権訴訟において、Suno
ハイアール、重量わずか1.75kgの世界最軽量AIスポーツ用外骨格ロボットを発表
ハイアールグループは、スポーツ用として世界最軽量のAI搭載外骨格ロボット「ハイアール・エクソスケルトン・ロボット W3」を発表しました。この製品の発売により、軽量化において業界新記録を樹立し、軽量設計と人間の動作をインテリジェントに強化する技術において大きな飛躍を遂げました。高級素材が実現する超軽量設計W3は、フルカーボンファイバーとチタン合金を組み合わせた革新的な一体成型プロセスを採用しています
Yaoke Media初のAIGCドラマ『秦嶺の青銅の謎』が本日配信開始、AIが演じる主演キャストが登場
本日、Yaoke MediaのAIGCファンタジー・ミステリー短編ドラマ『秦嶺青銅の秘話』が正式に公開されました。同社が初めて契約した2人のAI俳優、秦凌月と林西燕燕が主演を務め、物語は謎に包まれた秦嶺の鉱山地帯を舞台に展開されます。 物語は、引退した諜報員・秦月がチームを率いてその奥深くへと入り込み、長年埋もれていた鉱山事故と、2世代にわたる血の生贄の真実を暴いていく様子を描きます。その真実は、





家






