Les élèves du secondaire crée un site Web pour les défis de construction de l'AI Minecraft
Benchmarking de l'IA créative avec Minecraft
Alors que les méthodes traditionnelles de benchmarking de l'IA montrent leurs limites, les développeurs explorent des approches innovantes pour évaluer les capacités des modèles d'IA générative. L'une de ces méthodes créatives consiste à utiliser Minecraft, le jeu sandbox populaire appartenant à Microsoft. Un groupe de développeurs a lancé Minecraft Benchmark, ou MC-Bench, une plateforme où les modèles d'IA s'affrontent en créant des constructions Minecraft basées sur des prompts donnés.
Sur MC-Bench, les utilisateurs peuvent voter pour la création de modèle d'IA qu'ils préfèrent, et ce n'est qu'après avoir voté qu'ils découvrent quel modèle a réalisé chaque construction. Cette approche interactive engage non seulement la communauté, mais offre également une manière unique d'évaluer les capacités de l'IA.

Crédits image : Minecraft Benchmark Adi Singh, lycéen en terminale et initiateur de MC-Bench, estime que la reconnaissance mondiale de Minecraft est essentielle. En tant que jeu vidéo le plus vendu de tous les temps, il est familier à beaucoup, ce qui facilite l'évaluation de la qualité des constructions générées par l'IA, même pour ceux qui n'ont jamais joué au jeu. « Minecraft permet aux gens de voir les progrès [du développement de l'IA] beaucoup plus facilement », a expliqué Singh à TechCrunch. « Les gens sont habitués à Minecraft, à son apparence et à son ambiance. »
MC-Bench est soutenu par une équipe de huit contributeurs bénévoles. Des entreprises comme Anthropic, Google, OpenAI et Alibaba ont fourni leurs produits pour exécuter des prompts de benchmarking, bien qu'elles ne soient pas autrement impliquées dans le projet.
Singh envisage d'élargir MC-Bench au-delà des constructions simples pour inclure des tâches plus complexes et orientées vers des objectifs. « Les jeux pourraient être un moyen de tester le raisonnement agentique, plus sûr qu'en conditions réelles et plus contrôlable à des fins de test, ce qui le rend plus idéal à mes yeux », a-t-il déclaré.
Autres jeux comme benchmarks pour l'IA
Outre Minecraft, d'autres jeux comme Pokémon Red, Street Fighter et Pictionary ont été utilisés comme benchmarks expérimentaux pour l'IA. Le défi du benchmarking de l'IA réside dans sa complexité, car les tests standardisés traditionnels favorisent souvent les modèles d'IA en raison de leurs méthodes d'entraînement, qui excellent dans des domaines de résolution de problèmes spécifiques comme la mémorisation par cœur ou l'extrapolation de base.
Par exemple, alors que GPT-4 d'OpenAI peut atteindre le 88e centile au LSAT, il a du mal avec des tâches plus simples comme compter le nombre de R dans « strawberry ». De même, Claude 3.7 Sonnet d'Anthropic a obtenu une précision de 62,3 % sur un benchmark d'ingénierie logicielle, mais est moins performant que la plupart des enfants de cinq ans pour jouer à Pokémon.

Crédits image : Minecraft Benchmark MC-Bench : Plus qu'un simple benchmark de programmation
Techniquement, MC-Bench est un benchmark de programmation, car il exige que les modèles d'IA écrivent du code pour créer des constructions comme « Frosty le bonhomme de neige » ou « une charmante cabane de plage tropicale sur une côte de sable immaculée ». Cependant, l'attrait de la plateforme réside dans son accessibilité. Il est plus facile pour les utilisateurs d'évaluer la qualité visuelle d'une construction que d'analyser du code, ce qui élargit la portée du projet et son potentiel pour la collecte de données sur les performances des modèles.
Le débat se poursuit sur la question de savoir si ces scores reflètent véritablement l'utilité de l'IA. Singh, cependant, pense qu'ils sont un indicateur solide. « Le classement actuel reflète assez fidèlement ma propre expérience d'utilisation de ces modèles, ce qui est différent de nombreux benchmarks purement textuels », a-t-il déclaré. « Peut-être que [MC-Bench] pourrait être utile aux entreprises pour savoir si elles vont dans la bonne direction. »
Article connexe
Manus lance l'outil d'IA "Wide Research" avec plus de 100 agents pour l'exploration du Web
L'innovateur chinois Manus, qui a déjà attiré l'attention sur sa plateforme d'orchestration multi-agents destinée à la fois aux consommateurs et aux utilisateurs professionnels, a dévoilé une applicat
Pourquoi les LLM ignorent-ils les instructions et comment y remédier efficacement ?
Comprendre pourquoi les grands modèles de langage sautent les instructionsLes grands modèles de langage ont transformé la façon dont nous interagissons avec l'IA, permettant des applications avancées
Pebble récupère son nom de marque original après une bataille juridique
Le retour de Pebble : Le nom et tout le resteLes amateurs de Pebble peuvent se réjouir : la marque de smartwatch bien-aimée ne fait pas seulement son retour, elle récupère son nom emblématique. "Nous
commentaires (23)
0/200
RalphRoberts
21 septembre 2025 00:30:34 UTC+02:00
这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果
0
JasonJohnson
23 août 2025 03:01:25 UTC+02:00
This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎
0
BenGarcía
4 août 2025 08:01:00 UTC+02:00
This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰
0
GregoryJones
20 avril 2025 23:02:52 UTC+02:00
マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲
0
JonathanKing
20 avril 2025 10:42:35 UTC+02:00
¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄
0
RalphHill
20 avril 2025 05:41:36 UTC+02:00
Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊
0
Benchmarking de l'IA créative avec Minecraft
Alors que les méthodes traditionnelles de benchmarking de l'IA montrent leurs limites, les développeurs explorent des approches innovantes pour évaluer les capacités des modèles d'IA générative. L'une de ces méthodes créatives consiste à utiliser Minecraft, le jeu sandbox populaire appartenant à Microsoft. Un groupe de développeurs a lancé Minecraft Benchmark, ou MC-Bench, une plateforme où les modèles d'IA s'affrontent en créant des constructions Minecraft basées sur des prompts donnés.
Sur MC-Bench, les utilisateurs peuvent voter pour la création de modèle d'IA qu'ils préfèrent, et ce n'est qu'après avoir voté qu'ils découvrent quel modèle a réalisé chaque construction. Cette approche interactive engage non seulement la communauté, mais offre également une manière unique d'évaluer les capacités de l'IA.
Adi Singh, lycéen en terminale et initiateur de MC-Bench, estime que la reconnaissance mondiale de Minecraft est essentielle. En tant que jeu vidéo le plus vendu de tous les temps, il est familier à beaucoup, ce qui facilite l'évaluation de la qualité des constructions générées par l'IA, même pour ceux qui n'ont jamais joué au jeu. « Minecraft permet aux gens de voir les progrès [du développement de l'IA] beaucoup plus facilement », a expliqué Singh à TechCrunch. « Les gens sont habitués à Minecraft, à son apparence et à son ambiance. »
MC-Bench est soutenu par une équipe de huit contributeurs bénévoles. Des entreprises comme Anthropic, Google, OpenAI et Alibaba ont fourni leurs produits pour exécuter des prompts de benchmarking, bien qu'elles ne soient pas autrement impliquées dans le projet.
Singh envisage d'élargir MC-Bench au-delà des constructions simples pour inclure des tâches plus complexes et orientées vers des objectifs. « Les jeux pourraient être un moyen de tester le raisonnement agentique, plus sûr qu'en conditions réelles et plus contrôlable à des fins de test, ce qui le rend plus idéal à mes yeux », a-t-il déclaré.
Autres jeux comme benchmarks pour l'IA
Outre Minecraft, d'autres jeux comme Pokémon Red, Street Fighter et Pictionary ont été utilisés comme benchmarks expérimentaux pour l'IA. Le défi du benchmarking de l'IA réside dans sa complexité, car les tests standardisés traditionnels favorisent souvent les modèles d'IA en raison de leurs méthodes d'entraînement, qui excellent dans des domaines de résolution de problèmes spécifiques comme la mémorisation par cœur ou l'extrapolation de base.
Par exemple, alors que GPT-4 d'OpenAI peut atteindre le 88e centile au LSAT, il a du mal avec des tâches plus simples comme compter le nombre de R dans « strawberry ». De même, Claude 3.7 Sonnet d'Anthropic a obtenu une précision de 62,3 % sur un benchmark d'ingénierie logicielle, mais est moins performant que la plupart des enfants de cinq ans pour jouer à Pokémon.
MC-Bench : Plus qu'un simple benchmark de programmation
Techniquement, MC-Bench est un benchmark de programmation, car il exige que les modèles d'IA écrivent du code pour créer des constructions comme « Frosty le bonhomme de neige » ou « une charmante cabane de plage tropicale sur une côte de sable immaculée ». Cependant, l'attrait de la plateforme réside dans son accessibilité. Il est plus facile pour les utilisateurs d'évaluer la qualité visuelle d'une construction que d'analyser du code, ce qui élargit la portée du projet et son potentiel pour la collecte de données sur les performances des modèles.
Le débat se poursuit sur la question de savoir si ces scores reflètent véritablement l'utilité de l'IA. Singh, cependant, pense qu'ils sont un indicateur solide. « Le classement actuel reflète assez fidèlement ma propre expérience d'utilisation de ces modèles, ce qui est différent de nombreux benchmarks purement textuels », a-t-il déclaré. « Peut-être que [MC-Bench] pourrait être utile aux entreprises pour savoir si elles vont dans la bonne direction. »




这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果




This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎




This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰




マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲




¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄




Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊












