オプション
ニュース
人類はポケモンを使用して、最新のAIモデルをベンチマークしました

人類はポケモンを使用して、最新のAIモデルをベンチマークしました

2025年4月10日
89

驚くべき動きの中で、人類は最新のAIモデルであるClaude 3.7 Sonnetを、古典的なゲームボーイゲームであるPokémonRedでテストすることにしました。月曜日にリリースされたブログ投稿によると、同社はメモリ、画面のピクセルを読み取る機能、ボタンを押してゲーム画面を移動するパワーなど、エッセンシャルをモデルに配置しました。このセットアップにより、Claude 3.7 Sonnetはポケモンの世界に飛び込み、プレイし続けることができました。

クロード3.7ソネットを際立たせるのは、「拡張思考」のコツです。 OpenaiのO3-MiniやDeepseekのR1などの他のモデルと同様に、コンピューティングパワーを上げて、物事を考えるのに甘い時間をとることで、困難な問題に取り組むことができます。

この機能は、ポケモンレッドのゲームチェンジャーであることが証明されました。古いクロード3.0ソネットはパレットタウンのスターティングエリアから出ることさえできませんでしたが、クロード3.7ソネットは3人のジムリーダーを倒し、バッジを引っ掛けました。

人類のポケモンレッド

画像クレジット:人類
現在、人類は、Claude 3.7 Sonnetがこれらのマイルストーンに到達するのに必要な量や、どれだけの時間がかかったかに正確に豆を流出させませんでした。彼らは、このモデルは、最後のジムリーダーであるサージと対決するために、なんと35,000の行動を実行したと述べました。

先週、研究者がClaude 3.7 Sonnetの初期プレビューを試しました。

結果は印象的でした。数時間以内に、クロードはブロックを破った。数日後、それは霧を打ち負かしました。古いモデルが達成するという希望はほとんどありませんでした。

拡張思考は非常に効果的です。 pic.twitter.com/rspslgj2uf

- 人類(@anthropicai)2025年2月25日

賢い開発者が核心の詳細を理解するのはそう長くはかからないでしょう。

ポケモンレッドは少し楽しいテストのように思えるかもしれませんが、実際には年齢のAIベンチマークにゲームが使用されています。ここ数ヶ月で、たくさんの新しいアプリとプラットフォームがポップアップして、AIモデルがストリートファイターからピクトリアリーまですべてをどの程度プレイできるかをテストしました。

関連記事
Дебаты по сравнению с ИИ достигли покемонов Дебаты по сравнению с ИИ достигли покемонов Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно сообщению, Близнецы
Fireflies.aiとMicrosoft Plannerによる会議ノート自動化 Fireflies.aiとMicrosoft Plannerによる会議ノート自動化 会議ノートとタスク管理自動化の究極ガイドもう手動で会議を書き起こす必要がないと想像してください。アクションアイテムを急いでメモしたり、タスクを忘れたりすることはもうありません。数クリックで何時間もの面倒な作業を自動化できます。 このガイドでは、Fireflies.ai、Make.com、Excel、Microsoft Plannerを組み合わせた強力なワークフローを紹介します: ✅ 会議の自動
AI駆動の絵文字リールでエンゲージメントを高め、バイラル成長を実現 AI駆動の絵文字リールでエンゲージメントを高め、バイラル成長を実現 AIを活用したバイラル絵文字リールの究極ガイド(そしてそれで収益を得る方法)ソーシャルメディアでの存在感を収益を生むマシンに変えたいですか?ここにちょっとした秘密があります:最もバイラルなコンテンツの中には、最もシンプルなものもあります。やみつきになる絵文字リールのことを言っています。そして一番良い点は?AIツールを使えば簡単に作成できることです。絵文字リールがソーシャルメディア成功への切符である
コメント (15)
0/200
GeorgeWilliams
GeorgeWilliams 2025年4月12日 0:00:00 GMT

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen
StephenGreen 2025年4月12日 0:00:00 GMT

ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮

RogerSanchez
RogerSanchez 2025年4月13日 0:00:00 GMT

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner
HenryTurner 2025年4月15日 0:00:00 GMT

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia
JohnGarcia 2025年4月15日 0:00:00 GMT

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález
TerryGonzález 2025年4月12日 0:00:00 GMT

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

トップに戻ります
OR