高校生は、AI MinecraftのビルドオフチャレンジのためにWebサイトを作成します
Minecraftを使用したクリエイティブAIベンチマーク
従来のAIベンチマーク手法が不足する中、開発者たちは生成AIモデルの能力を評価するための革新的なアプローチを模索しています。そのようなクリエイティブな方法の一つが、Microsoftが所有する人気のサンドボックスゲーム、Minecraftを使用することです。一部の開発者グループがMinecraft Benchmark、またはMC-Benchを立ち上げ、AIモデルが与えられたプロンプトに基づいてMinecraftの建築物を作成し競い合うプラットフォームを構築しました。
MC-Benchでは、ユーザーがどのAIモデルの作品を好むかに投票でき、投票後に初めてどのモデルが各建築物を作成したかを知ることができます。このインタラクティブなアプローチは、コミュニティを巻き込むだけでなく、AIの能力を評価する独自の方法を提供します。

画像提供:Minecraft Benchmark 12年生でMC-Benchの創始者であるAdi Singhは、Minecraftの広く知られた認知度が鍵だと考えています。史上最も売れたビデオゲームとして、Minecraftは多くの人に馴染みがあり、ゲームをプレイしたことがない人でもAIが生成した建築物の品質を判断しやすくなっています。「Minecraftは人々がAI開発の進捗をより簡単に見ることを可能にします」とSinghはTechCrunchに説明しました。「人々はMinecraftに慣れており、その見た目や雰囲気に慣れています。」
MC-Benchは8人のボランティア貢献者によるチームによってサポートされています。Anthropic、Google、OpenAI、Alibabaなどの企業がベンチマークプロンプトの実行のために製品を提供していますが、プロジェクトにはそれ以外の関与はありません。
Singhは、MC-Benchを単純な建築物からより複雑で目標指向のタスクへと拡張することを構想しています。「ゲームは、現実世界よりも安全で、テスト目的でより制御可能なエージェント的推論をテストする媒体になるかもしれません。それが私の目には理想的です」と彼は述べました。
他のゲームをAIベンチマークとして
Minecraft以外にも、Pokémon Red、Street Fighter、PictionaryなどのゲームがAIの実験的ベンチマークとして使用されています。AIのベンチマークの課題は、その複雑さにあります。従来の標準化されたテストは、AIモデルが得意とする暗記や基本的な推論といった狭い問題解決領域を重視する傾向があるためです。
例えば、OpenAIのGPT-4はLSATで88パーセンタイルのスコアを獲得できますが、「strawberry」の中のRの数を数えるような簡単なタスクには苦戦します。同様に、AnthropicのClaude 3.7 Sonnetはソフトウェアエンジニアリングベンチマークで62.3%の精度を達成しましたが、Pokémonをプレイする能力では5歳の子供のほとんどの能力に及びません。

画像提供:Minecraft Benchmark MC-Bench:単なるプログラミングベンチマーク以上のもの
技術的には、MC-BenchはAIモデルが「フロスティ・ザ・スノーマン」や「手つかずの砂浜にある魅力的なトロピカルビーチハット」などの建築物を作成するためにコードを書く必要があるため、プログラミングベンチマークです。しかし、このプラットフォームの魅力は、そのアクセシビリティにあります。ユーザーがコードを分析するよりも、建築物の視覚的な品質を評価する方が簡単であり、これによりプロジェクトの範囲とモデルパフォーマンスに関するデータ収集の可能性が広がります。
これらのスコアがAIの有用性を本当に反映しているかどうかについての議論は続いています。しかし、Singhはそれらが強い指標だと信じています。「現在のリーダーボードは、私がこれらのモデルを使用した経験にかなり近いものを反映しています。これは多くの純粋なテキストベンチマークとは異なります」と彼は述べました。「おそらく[MC-Bench]は、企業が正しい方向に進んでいるかどうかを知るのに役立つかもしれません。」
関連記事
Manus、ウェブスクレイピングのための100以上のエージェントを備えたAIツール「Wide Research」を発表
中国のAIイノベーターであるManusは、コンシューマーとプロフェッショナルの両方に対応する先駆的なマルチエージェント・オーケストレーション・プラットフォームで注目を集めたが、従来のAI研究アプローチに挑戦する同社の技術の画期的なアプリケーションを発表した。AIを活用した研究の再考OpenAI、Google、xAIのような競合他社は、詳細なレポートを作成するために何時間も調査を行うことができる特別
LLMが指示を無視する理由と効果的な修正方法
大規模言語モデルが指示をスキップする理由を理解する大規模言語モデル(LLM)は、会話インターフェースからコンテンツの自動生成やプログラミング支援に至るまで、高度なアプリケーションを可能にし、AIとの対話方法を一変させました。しかし、ユーザーはしばしばフラストレーションのたまる制限に遭遇します。これらのモデルは、特に複雑で長いプロンプトにおいて、特定の指示を見落とすことがあるのです。この不完全なタ
ペブル、法廷闘争の末に元のブランド名を取り戻す
ペブルの帰還:名前とすべてPebbleの愛好家たちは喜べるだろう - この愛すべきスマートウォッチ・ブランドはカムバックするだけでなく、その象徴的な名前を取り戻そうとしている。「私たちはPebbleの商標を取り戻すことに成功し、そのスムーズさには正直驚かされました」と、Core DevicesのCEOであるEric Migicovsky氏は同社のブログの更新で明かしている。これは、先に発表されたC
コメント (23)
0/200
RalphRoberts
2025年9月21日 7:30:34 JST
这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果
0
JasonJohnson
2025年8月23日 10:01:25 JST
This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎
0
BenGarcía
2025年8月4日 15:01:00 JST
This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰
0
GregoryJones
2025年4月21日 6:02:52 JST
マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲
0
JonathanKing
2025年4月20日 17:42:35 JST
¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄
0
RalphHill
2025年4月20日 12:41:36 JST
Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊
0
Minecraftを使用したクリエイティブAIベンチマーク
従来のAIベンチマーク手法が不足する中、開発者たちは生成AIモデルの能力を評価するための革新的なアプローチを模索しています。そのようなクリエイティブな方法の一つが、Microsoftが所有する人気のサンドボックスゲーム、Minecraftを使用することです。一部の開発者グループがMinecraft Benchmark、またはMC-Benchを立ち上げ、AIモデルが与えられたプロンプトに基づいてMinecraftの建築物を作成し競い合うプラットフォームを構築しました。
MC-Benchでは、ユーザーがどのAIモデルの作品を好むかに投票でき、投票後に初めてどのモデルが各建築物を作成したかを知ることができます。このインタラクティブなアプローチは、コミュニティを巻き込むだけでなく、AIの能力を評価する独自の方法を提供します。
12年生でMC-Benchの創始者であるAdi Singhは、Minecraftの広く知られた認知度が鍵だと考えています。史上最も売れたビデオゲームとして、Minecraftは多くの人に馴染みがあり、ゲームをプレイしたことがない人でもAIが生成した建築物の品質を判断しやすくなっています。「Minecraftは人々がAI開発の進捗をより簡単に見ることを可能にします」とSinghはTechCrunchに説明しました。「人々はMinecraftに慣れており、その見た目や雰囲気に慣れています。」
MC-Benchは8人のボランティア貢献者によるチームによってサポートされています。Anthropic、Google、OpenAI、Alibabaなどの企業がベンチマークプロンプトの実行のために製品を提供していますが、プロジェクトにはそれ以外の関与はありません。
Singhは、MC-Benchを単純な建築物からより複雑で目標指向のタスクへと拡張することを構想しています。「ゲームは、現実世界よりも安全で、テスト目的でより制御可能なエージェント的推論をテストする媒体になるかもしれません。それが私の目には理想的です」と彼は述べました。
他のゲームをAIベンチマークとして
Minecraft以外にも、Pokémon Red、Street Fighter、PictionaryなどのゲームがAIの実験的ベンチマークとして使用されています。AIのベンチマークの課題は、その複雑さにあります。従来の標準化されたテストは、AIモデルが得意とする暗記や基本的な推論といった狭い問題解決領域を重視する傾向があるためです。
例えば、OpenAIのGPT-4はLSATで88パーセンタイルのスコアを獲得できますが、「strawberry」の中のRの数を数えるような簡単なタスクには苦戦します。同様に、AnthropicのClaude 3.7 Sonnetはソフトウェアエンジニアリングベンチマークで62.3%の精度を達成しましたが、Pokémonをプレイする能力では5歳の子供のほとんどの能力に及びません。
MC-Bench:単なるプログラミングベンチマーク以上のもの
技術的には、MC-BenchはAIモデルが「フロスティ・ザ・スノーマン」や「手つかずの砂浜にある魅力的なトロピカルビーチハット」などの建築物を作成するためにコードを書く必要があるため、プログラミングベンチマークです。しかし、このプラットフォームの魅力は、そのアクセシビリティにあります。ユーザーがコードを分析するよりも、建築物の視覚的な品質を評価する方が簡単であり、これによりプロジェクトの範囲とモデルパフォーマンスに関するデータ収集の可能性が広がります。
これらのスコアがAIの有用性を本当に反映しているかどうかについての議論は続いています。しかし、Singhはそれらが強い指標だと信じています。「現在のリーダーボードは、私がこれらのモデルを使用した経験にかなり近いものを反映しています。これは多くの純粋なテキストベンチマークとは異なります」と彼は述べました。「おそらく[MC-Bench]は、企業が正しい方向に進んでいるかどうかを知るのに役立つかもしれません。」




这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果




This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎




This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰




マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲




¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄




Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊












