高校生は、AI MinecraftのビルドオフチャレンジのためにWebサイトを作成します
Minecraftを使用したクリエイティブAIベンチマーク
従来のAIベンチマーク手法が不足する中、開発者たちは生成AIモデルの能力を評価するための革新的なアプローチを模索しています。そのようなクリエイティブな方法の一つが、Microsoftが所有する人気のサンドボックスゲーム、Minecraftを使用することです。一部の開発者グループがMinecraft Benchmark、またはMC-Benchを立ち上げ、AIモデルが与えられたプロンプトに基づいてMinecraftの建築物を作成し競い合うプラットフォームを構築しました。
MC-Benchでは、ユーザーがどのAIモデルの作品を好むかに投票でき、投票後に初めてどのモデルが各建築物を作成したかを知ることができます。このインタラクティブなアプローチは、コミュニティを巻き込むだけでなく、AIの能力を評価する独自の方法を提供します。

画像提供:Minecraft Benchmark 12年生でMC-Benchの創始者であるAdi Singhは、Minecraftの広く知られた認知度が鍵だと考えています。史上最も売れたビデオゲームとして、Minecraftは多くの人に馴染みがあり、ゲームをプレイしたことがない人でもAIが生成した建築物の品質を判断しやすくなっています。「Minecraftは人々がAI開発の進捗をより簡単に見ることを可能にします」とSinghはTechCrunchに説明しました。「人々はMinecraftに慣れており、その見た目や雰囲気に慣れています。」
MC-Benchは8人のボランティア貢献者によるチームによってサポートされています。Anthropic、Google、OpenAI、Alibabaなどの企業がベンチマークプロンプトの実行のために製品を提供していますが、プロジェクトにはそれ以外の関与はありません。
Singhは、MC-Benchを単純な建築物からより複雑で目標指向のタスクへと拡張することを構想しています。「ゲームは、現実世界よりも安全で、テスト目的でより制御可能なエージェント的推論をテストする媒体になるかもしれません。それが私の目には理想的です」と彼は述べました。
他のゲームをAIベンチマークとして
Minecraft以外にも、Pokémon Red、Street Fighter、PictionaryなどのゲームがAIの実験的ベンチマークとして使用されています。AIのベンチマークの課題は、その複雑さにあります。従来の標準化されたテストは、AIモデルが得意とする暗記や基本的な推論といった狭い問題解決領域を重視する傾向があるためです。
例えば、OpenAIのGPT-4はLSATで88パーセンタイルのスコアを獲得できますが、「strawberry」の中のRの数を数えるような簡単なタスクには苦戦します。同様に、AnthropicのClaude 3.7 Sonnetはソフトウェアエンジニアリングベンチマークで62.3%の精度を達成しましたが、Pokémonをプレイする能力では5歳の子供のほとんどの能力に及びません。

画像提供:Minecraft Benchmark MC-Bench:単なるプログラミングベンチマーク以上のもの
技術的には、MC-BenchはAIモデルが「フロスティ・ザ・スノーマン」や「手つかずの砂浜にある魅力的なトロピカルビーチハット」などの建築物を作成するためにコードを書く必要があるため、プログラミングベンチマークです。しかし、このプラットフォームの魅力は、そのアクセシビリティにあります。ユーザーがコードを分析するよりも、建築物の視覚的な品質を評価する方が簡単であり、これによりプロジェクトの範囲とモデルパフォーマンスに関するデータ収集の可能性が広がります。
これらのスコアがAIの有用性を本当に反映しているかどうかについての議論は続いています。しかし、Singhはそれらが強い指標だと信じています。「現在のリーダーボードは、私がこれらのモデルを使用した経験にかなり近いものを反映しています。これは多くの純粋なテキストベンチマークとは異なります」と彼は述べました。「おそらく[MC-Bench]は、企業が正しい方向に進んでいるかどうかを知るのに役立つかもしれません。」
関連記事
中国電信がMianbi Intelligenceに出資、LLMおよびデータインフラ向けに資本金を71万3000元に増資
大規模モデル分野における「ナショナルチーム」と清華大学の主導的な存在が、戦略的連携をさらに強化している。 2026年3月1日、Qichachaの最新の企業登録データによると、北京Mianbi Intelligent Technology Co., Ltd.は大幅な資本構成の再編を行い、通信大手や業界ファンドからの出資を正式に受け入れた。この動きは単なる資本注入にとどまらず、パブリックデータプラット
タオティアン・グループ、AIネイティブへの事業再編を加速、インターンに無料トークン割当を付与
TaoTian Groupは最近、「AI生産性向上プラン」を導入しました。これは、リソースの配分やツールの補助を通じて、AI技術のEC業務や研究開発ワークフローへの統合を加速させることを目的としています。このプログラムは現在、すべてのインターン生が利用可能となっており、インターン期間中、正社員と同等のAIアクセス権限、計算リソースの割り当て、および承認プロセスが付与されます。3月17日より、Tao
グリアン、市場開拓に向け企業のAIインフラをターゲットに
エンタープライズAIの主導権を巡る競争が激化している。マイクロソフトは「Copilot」をOfficeに組み込み、Googleは「Gemini」をWorkspaceに統合しており、OpenAIとAnthropicの両社は企業向けに直接販売を行っている。一方、現在ではほぼすべてのSaaSベンダーがAIアシスタントを搭載している。ユーザーインターフェースの主導権争いが激化する中、Gleanは目立たない
関連特集おすすめ
コメント (27)
0/500
Interesting approach! Using Minecraft for AI benchmarking sounds way more engaging than standard tests. Wonder if this could lead to AI that actually helps design game worlds? The student's project is a cool example of how gaming and AI research can mix. Hope they share the results! 🎮
高校生がAI建築チャレンジのサイトを作ったのか…!Minecraftの世界でAIの創造性を測るってアイデア、すごく面白いな。でも、これって結局マイクロソフトのプロモーションみたいなものじゃないの?AIがどんどんゲーム内に溶け込んでいくの、ちょっと怖い気もする😅 未来のゲームはすべてAIが作っちゃうのかな?
É sempre incrível ver jovens inovando com IA! Alguém já testou se esses desafios do Minecraft realmente conseguem medir bem a criatividade dos modelos? Ou será que é só mais uma moda passageira? 😅
这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果
Minecraftを使用したクリエイティブAIベンチマーク
従来のAIベンチマーク手法が不足する中、開発者たちは生成AIモデルの能力を評価するための革新的なアプローチを模索しています。そのようなクリエイティブな方法の一つが、Microsoftが所有する人気のサンドボックスゲーム、Minecraftを使用することです。一部の開発者グループがMinecraft Benchmark、またはMC-Benchを立ち上げ、AIモデルが与えられたプロンプトに基づいてMinecraftの建築物を作成し競い合うプラットフォームを構築しました。
MC-Benchでは、ユーザーがどのAIモデルの作品を好むかに投票でき、投票後に初めてどのモデルが各建築物を作成したかを知ることができます。このインタラクティブなアプローチは、コミュニティを巻き込むだけでなく、AIの能力を評価する独自の方法を提供します。

12年生でMC-Benchの創始者であるAdi Singhは、Minecraftの広く知られた認知度が鍵だと考えています。史上最も売れたビデオゲームとして、Minecraftは多くの人に馴染みがあり、ゲームをプレイしたことがない人でもAIが生成した建築物の品質を判断しやすくなっています。「Minecraftは人々がAI開発の進捗をより簡単に見ることを可能にします」とSinghはTechCrunchに説明しました。「人々はMinecraftに慣れており、その見た目や雰囲気に慣れています。」
MC-Benchは8人のボランティア貢献者によるチームによってサポートされています。Anthropic、Google、OpenAI、Alibabaなどの企業がベンチマークプロンプトの実行のために製品を提供していますが、プロジェクトにはそれ以外の関与はありません。
Singhは、MC-Benchを単純な建築物からより複雑で目標指向のタスクへと拡張することを構想しています。「ゲームは、現実世界よりも安全で、テスト目的でより制御可能なエージェント的推論をテストする媒体になるかもしれません。それが私の目には理想的です」と彼は述べました。
他のゲームをAIベンチマークとして
Minecraft以外にも、Pokémon Red、Street Fighter、PictionaryなどのゲームがAIの実験的ベンチマークとして使用されています。AIのベンチマークの課題は、その複雑さにあります。従来の標準化されたテストは、AIモデルが得意とする暗記や基本的な推論といった狭い問題解決領域を重視する傾向があるためです。
例えば、OpenAIのGPT-4はLSATで88パーセンタイルのスコアを獲得できますが、「strawberry」の中のRの数を数えるような簡単なタスクには苦戦します。同様に、AnthropicのClaude 3.7 Sonnetはソフトウェアエンジニアリングベンチマークで62.3%の精度を達成しましたが、Pokémonをプレイする能力では5歳の子供のほとんどの能力に及びません。

MC-Bench:単なるプログラミングベンチマーク以上のもの
技術的には、MC-BenchはAIモデルが「フロスティ・ザ・スノーマン」や「手つかずの砂浜にある魅力的なトロピカルビーチハット」などの建築物を作成するためにコードを書く必要があるため、プログラミングベンチマークです。しかし、このプラットフォームの魅力は、そのアクセシビリティにあります。ユーザーがコードを分析するよりも、建築物の視覚的な品質を評価する方が簡単であり、これによりプロジェクトの範囲とモデルパフォーマンスに関するデータ収集の可能性が広がります。
これらのスコアがAIの有用性を本当に反映しているかどうかについての議論は続いています。しかし、Singhはそれらが強い指標だと信じています。「現在のリーダーボードは、私がこれらのモデルを使用した経験にかなり近いものを反映しています。これは多くの純粋なテキストベンチマークとは異なります」と彼は述べました。「おそらく[MC-Bench]は、企業が正しい方向に進んでいるかどうかを知るのに役立つかもしれません。」
中国電信がMianbi Intelligenceに出資、LLMおよびデータインフラ向けに資本金を71万3000元に増資
大規模モデル分野における「ナショナルチーム」と清華大学の主導的な存在が、戦略的連携をさらに強化している。 2026年3月1日、Qichachaの最新の企業登録データによると、北京Mianbi Intelligent Technology Co., Ltd.は大幅な資本構成の再編を行い、通信大手や業界ファンドからの出資を正式に受け入れた。この動きは単なる資本注入にとどまらず、パブリックデータプラット
タオティアン・グループ、AIネイティブへの事業再編を加速、インターンに無料トークン割当を付与
TaoTian Groupは最近、「AI生産性向上プラン」を導入しました。これは、リソースの配分やツールの補助を通じて、AI技術のEC業務や研究開発ワークフローへの統合を加速させることを目的としています。このプログラムは現在、すべてのインターン生が利用可能となっており、インターン期間中、正社員と同等のAIアクセス権限、計算リソースの割り当て、および承認プロセスが付与されます。3月17日より、Tao
グリアン、市場開拓に向け企業のAIインフラをターゲットに
エンタープライズAIの主導権を巡る競争が激化している。マイクロソフトは「Copilot」をOfficeに組み込み、Googleは「Gemini」をWorkspaceに統合しており、OpenAIとAnthropicの両社は企業向けに直接販売を行っている。一方、現在ではほぼすべてのSaaSベンダーがAIアシスタントを搭載している。ユーザーインターフェースの主導権争いが激化する中、Gleanは目立たない
Interesting approach! Using Minecraft for AI benchmarking sounds way more engaging than standard tests. Wonder if this could lead to AI that actually helps design game worlds? The student's project is a cool example of how gaming and AI research can mix. Hope they share the results! 🎮
高校生がAI建築チャレンジのサイトを作ったのか…!Minecraftの世界でAIの創造性を測るってアイデア、すごく面白いな。でも、これって結局マイクロソフトのプロモーションみたいなものじゃないの?AIがどんどんゲーム内に溶け込んでいくの、ちょっと怖い気もする😅 未来のゲームはすべてAIが作っちゃうのかな?
É sempre incrível ver jovens inovando com IA! Alguém já testou se esses desafios do Minecraft realmente conseguem medir bem a criatividade dos modelos? Ou será que é só mais uma moda passageira? 😅
这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果





家






