Schüler schafft eine Website für AI Minecraft Build-Off-Herausforderungen

Heim

Nachricht

18. April 2025

EdwardEvans

141

Kreatives KI-Benchmarking mit Minecraft

Da traditionelle KI-Benchmarking-Methoden nicht ausreichen, erkunden Entwickler innovative Ansätze, um die Leistungsfähigkeit generativer KI-Modelle zu bewerten. Eine solche kreative Methode nutzt Minecraft, das beliebte Sandbox-Spiel von Microsoft. Eine Gruppe von Entwicklern hat Minecraft Benchmark, oder MC-Bench, ins Leben gerufen, eine Plattform, auf der KI-Modelle in Wettbewerben antreten, um Minecraft-Bauten basierend auf vorgegebenen Aufgaben zu erstellen.

Auf MC-Bench können Nutzer abstimmen, welche Kreation eines KI-Modells ihnen besser gefällt, und erst nach ihrer Abstimmung erfahren sie, welches Modell welchen Bau erstellt hat. Dieser interaktive Ansatz bindet nicht nur die Gemeinschaft ein, sondern bietet auch eine einzigartige Möglichkeit, KI-Fähigkeiten zu bewerten.

Bildnachweis: Minecraft Benchmark

Adi Singh, ein Schüler der 12. Klasse und Initiator von MC-Bench, glaubt, dass die weitreichende Bekanntheit von Minecraft entscheidend ist. Als meistverkauftes Videospiel aller Zeiten ist es vielen vertraut, was es Menschen erleichtert, die Qualität von KI-generierten Bauten zu beurteilen, selbst wenn sie das Spiel nicht selbst gespielt haben. „Minecraft ermöglicht es den Menschen, den Fortschritt [der KI-Entwicklung] viel einfacher zu sehen“, erklärte Singh gegenüber TechCrunch. „Die Menschen sind an Minecraft gewöhnt, an das Aussehen und die Atmosphäre.“

MC-Bench wird von einem Team aus acht freiwilligen Mitwirkenden unterstützt. Unternehmen wie Anthropic, Google, OpenAI und Alibaba haben ihre Produkte für die Durchführung von Benchmark-Aufgaben bereitgestellt, sind aber ansonsten nicht am Projekt beteiligt.

Singh plant, MC-Bench über einfache Bauten hinaus auf komplexere, zielorientierte Aufgaben auszuweiten. „Spiele könnten ein Medium sein, um agentisches Denken zu testen, das sicherer ist als im echten Leben und besser kontrollierbar für Testzwecke, was es in meinen Augen idealer macht“, sagte er.

Weitere Spiele als KI-Benchmarks

Neben Minecraft wurden auch andere Spiele wie Pokémon Red, Street Fighter und Pictionary als experimentelle Benchmarks für KI genutzt. Die Herausforderung beim Benchmarking von KI liegt in ihrer Komplexität, da traditionelle standardisierte Tests oft KI-Modelle begünstigen, die aufgrund ihrer Trainingsmethoden in engen Problemlösungsbereichen wie Auswendiglernen oder einfacher Extrapolation glänzen.

Zum Beispiel kann OpenAI's GPT-4 im LSAT in der 88. Perzentile punkten, hat aber Schwierigkeiten mit einfacheren Aufgaben wie dem Zählen der Rs in „strawberry“. Ähnlich erreichte Anthropic's Claude 3.7 Sonnet eine Genauigkeit von 62,3 % bei einem Software-Engineering-Benchmark, scheitert aber beim Spielen von Pokémon im Vergleich zu den meisten Fünfjährigen.

Bildnachweis: Minecraft Benchmark

MC-Bench: Mehr als nur ein Programmier-Benchmark

Technisch gesehen ist MC-Bench ein Programmier-Benchmark, da es von KI-Modellen verlangt, Code zu schreiben, um Bauten wie „Frosty der Schneemann“ oder „eine charmante tropische Strandhütte an einem unberührten Sandstrand“ zu erstellen. Der Reiz der Plattform liegt jedoch in ihrer Zugänglichkeit. Es ist für Nutzer einfacher, die visuelle Qualität eines Baus zu bewerten, als Code zu analysieren, was die Reichweite des Projekts und das Potenzial für die Datensammlung zur Modellleistung erweitert.

Die Debatte darüber, ob diese Bewertungen die tatsächliche Nützlichkeit von KI widerspiegeln, geht weiter. Singh glaubt jedoch, dass sie ein starker Indikator sind. „Die aktuelle Rangliste spiegelt meine eigene Erfahrung mit der Nutzung dieser Modelle ziemlich genau wider, was bei vielen reinen Text-Benchmarks nicht der Fall ist“, sagte er. „Vielleicht könnte [MC-Bench] für Unternehmen nützlich sein, um zu wissen, ob sie in die richtige Richtung gehen.“

Verwandter Artikel

Vollständiger Leitfaden zur Beherrschung von Inpainting mit stabiler Diffusion Stable Diffusion hat die KI-gestützte Bilderzeugung verändert, indem es eine noch nie dagewesene kreative Kontrolle bietet, insbesondere durch seine leistungsstarke Inpainting-Funktion. Dieses umfasse

Adobe Substance 3D Viewer integriert AI für erweiterte 3D-Modellierung Mit dem revolutionären Substance 3D Viewer erweitert Adobe die kreativen Grenzen und verändert die Art und Weise, wie Designer mit 3D-Inhalten in ihrem digitalen Workflow interagieren. Mit diesem bahn

AI-Fotobearbeitung mit CapCut meistern: Professionelle Anleitung & Tipps CapCut ist nicht nur für die Videobearbeitung bekannt, sondern bietet auch erstaunlich robuste KI-gestützte Fotobearbeitungsfunktionen. Dieses umfassende Tutorial zeigt, wie Sie die intelligenten Werk

Kommentare (23)

0/200

Einreichen

RalphRoberts

21. September 2025 00:30:34 MESZ

这个高中生用Minecraft来测试AI生成建筑也太有创意了吧！😂 传统AI评测标准太死板了，确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么，是美观度还是还原度？也想试试看用我的世界来测试Stable Diffusion效果

JasonJohnson

23. August 2025 03:01:25 MESZ

This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎

BenGarcía

4. August 2025 08:01:00 MESZ

This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰

GregoryJones

20. April 2025 23:02:52 MESZ

マインクラフトでAIの性能を評価するなんて面白いアイデアだね！ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ！高校生が作ったなんて信じられない！😲

JonathanKing

20. April 2025 10:42:35 MESZ

¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄

RalphHill

20. April 2025 05:41:36 MESZ

Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung Die KI von Cambium verwandelt Abfall Holz in Holz OpenAI verbessert den AI -Sprachassistenten für bessere Chats So stellen Sie sicher, dass Ihre Daten für die KI -Integration vertrauenswürdig sind NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten Google nutzt KI, um über 39 Millionen Anzeigenkonten für mutmaßlichen Betrug auszusetzen Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung

Mehr

Vorgestellt