Студент средней школы создает веб-сайт для создания AI Minecraft.
Креативное тестирование ИИ с помощью Minecraft
Поскольку традиционные методы тестирования ИИ оказываются недостаточными, разработчики исследуют инновационные подходы для оценки возможностей генеративных моделей ИИ. Одним из таких креативных методов является использование Minecraft, популярной песочницы, принадлежащей Microsoft. Группа разработчиков запустила Minecraft Benchmark, или MC-Bench, платформу, где модели ИИ соревнуются в создании построек в Minecraft на основе заданных подсказок.
На MC-Bench пользователи могут голосовать за понравившуюся постройку модели ИИ, и только после голосования они узнают, какая модель создала каждую постройку. Этот интерактивный подход не только вовлекает сообщество, но и предоставляет уникальный способ оценки возможностей ИИ.

Изображение предоставлено: Minecraft Benchmark Ади Сингх, ученик 12-го класса и инициатор MC-Bench, считает, что широкая известность Minecraft играет ключевую роль. Как самая продаваемая видеоигра в истории, она знакома многим, что облегчает людям оценку качества построек, созданных ИИ, даже если они сами не играли в игру. «Minecraft позволяет людям гораздо проще увидеть прогресс [развития ИИ],» — объяснил Сингх в интервью TechCrunch. «Люди привыкли к Minecraft, к его внешнему виду и атмосфере.»
MC-Bench поддерживается командой из восьми добровольных участников. Компании, такие как Anthropic, Google, OpenAI и Alibaba, предоставили свои продукты для выполнения тестовых подсказок, хотя в остальном они не участвуют в проекте.
Сингх планирует расширить MC-Bench за пределы простых построек до более сложных, ориентированных на цели задач. «Игры могут быть просто средством для тестирования агентного мышления, которое безопаснее, чем в реальной жизни, и более контролируемо для целей тестирования, что делает его более идеальным в моих глазах,» — сказал он.
Другие игры как тесты для ИИ
Помимо Minecraft, другие игры, такие как Pokémon Red, Street Fighter и Pictionary, использовались в качестве экспериментальных тестов для ИИ. Сложность тестирования ИИ заключается в его комплексности, поскольку традиционные стандартизированные тесты часто благоприятствуют моделям ИИ из-за их методов обучения, которые превосходят в узких областях решения задач, таких как механическое запоминание или базовая экстраполяция.
Например, GPT-4 от OpenAI может набрать 88-й процентиль на LSAT, но испытывает трудности с более простыми задачами, такими как подсчет количества букв «R» в слове «strawberry». Аналогично, Claude 3.7 Sonnet от Anthropic достиг точности 62,3% в тесте по разработке программного обеспечения, но уступает большинству пятилетних детей в игре Pokémon.

Изображение предоставлено: Minecraft Benchmark MC-Bench: больше, чем просто программный тест
Технически MC-Bench является программным тестом, поскольку требует от моделей ИИ написания кода для создания построек, таких как «Снеговик Фрости» или «очаровательная тропическая хижина на нетронутом песчаном берегу». Однако привлекательность платформы заключается в ее доступности. Пользователям легче оценить визуальное качество постройки, чем анализировать код, что расширяет охват проекта и потенциал для сбора данных о производительности моделей.
Дискуссия о том, действительно ли эти результаты отражают полезность ИИ, продолжается. Однако Сингх считает, что они являются сильным индикатором. «Текущая таблица лидеров довольно точно отражает мой собственный опыт использования этих моделей, в отличие от многих чисто текстовых тестов,» — сказал он. «Возможно, [MC-Bench] может быть полезен компаниям, чтобы понять, движутся ли они в правильном направлении.»
Связанная статья
Amazon представляет улучшенную Alexa+ с передовыми возможностями ИИ
На мероприятии в Нью-Йорке в среду Amazon представила улучшенный опыт Alexa+, основанный на передовой технологии генеративного ИИ. Панос Панай, руководитель отдела устройств и сервисов Amazon, назвал
Руководство по созданию вирусных видео с чат-историями с помощью ИИ-инструментов в 2025 году
В динамичной сфере социальных сетей создание увлекательного контента крайне важно для привлечения внимания аудитории и укрепления присутствия в интернете. Видео с чат-историями стремительно набирают п
Google подписывается на Кодекс практики ЕС по ИИ на фоне отраслевых дискуссий
Google обязалась принять добровольный Кодекс практики ЕС по ИИ, рамки, разработанные для помощи разработчикам ИИ в соответствии с Законом ЕС об ИИ путем внедрения соответствующих процессов и систем.В
Комментарии (21)
BenGarcía
4 августа 2025 г., 9:01:00 GMT+03:00
This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰
0
GregoryJones
21 апреля 2025 г., 0:02:52 GMT+03:00
マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲
0
JonathanKing
20 апреля 2025 г., 11:42:35 GMT+03:00
¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄
0
RalphHill
20 апреля 2025 г., 6:41:36 GMT+03:00
Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊
0
CharlesThomas
20 апреля 2025 г., 1:49:16 GMT+03:00
マインクラフトを使ったAIのベンチマーク、面白いですね!ゲームがAIのテストに使われるなんて、まるでAI同士が仮想世界で競っているみたい。ただ、時々ビルドがシンプルすぎるのが残念。でも全体的に素晴らしいアイデアだと思います!👍
0
KennethLee
20 апреля 2025 г., 0:58:54 GMT+03:00
This high school student's Minecraft AI challenge website is super cool! It's a fun way to see how AI can build stuff in Minecraft. The only thing is, sometimes the challenges are too hard for beginners. Still, it's a great project and I can't wait to see what comes next! 🎮
0
Креативное тестирование ИИ с помощью Minecraft
Поскольку традиционные методы тестирования ИИ оказываются недостаточными, разработчики исследуют инновационные подходы для оценки возможностей генеративных моделей ИИ. Одним из таких креативных методов является использование Minecraft, популярной песочницы, принадлежащей Microsoft. Группа разработчиков запустила Minecraft Benchmark, или MC-Bench, платформу, где модели ИИ соревнуются в создании построек в Minecraft на основе заданных подсказок.
На MC-Bench пользователи могут голосовать за понравившуюся постройку модели ИИ, и только после голосования они узнают, какая модель создала каждую постройку. Этот интерактивный подход не только вовлекает сообщество, но и предоставляет уникальный способ оценки возможностей ИИ.
Ади Сингх, ученик 12-го класса и инициатор MC-Bench, считает, что широкая известность Minecraft играет ключевую роль. Как самая продаваемая видеоигра в истории, она знакома многим, что облегчает людям оценку качества построек, созданных ИИ, даже если они сами не играли в игру. «Minecraft позволяет людям гораздо проще увидеть прогресс [развития ИИ],» — объяснил Сингх в интервью TechCrunch. «Люди привыкли к Minecraft, к его внешнему виду и атмосфере.»
MC-Bench поддерживается командой из восьми добровольных участников. Компании, такие как Anthropic, Google, OpenAI и Alibaba, предоставили свои продукты для выполнения тестовых подсказок, хотя в остальном они не участвуют в проекте.
Сингх планирует расширить MC-Bench за пределы простых построек до более сложных, ориентированных на цели задач. «Игры могут быть просто средством для тестирования агентного мышления, которое безопаснее, чем в реальной жизни, и более контролируемо для целей тестирования, что делает его более идеальным в моих глазах,» — сказал он.
Другие игры как тесты для ИИ
Помимо Minecraft, другие игры, такие как Pokémon Red, Street Fighter и Pictionary, использовались в качестве экспериментальных тестов для ИИ. Сложность тестирования ИИ заключается в его комплексности, поскольку традиционные стандартизированные тесты часто благоприятствуют моделям ИИ из-за их методов обучения, которые превосходят в узких областях решения задач, таких как механическое запоминание или базовая экстраполяция.
Например, GPT-4 от OpenAI может набрать 88-й процентиль на LSAT, но испытывает трудности с более простыми задачами, такими как подсчет количества букв «R» в слове «strawberry». Аналогично, Claude 3.7 Sonnet от Anthropic достиг точности 62,3% в тесте по разработке программного обеспечения, но уступает большинству пятилетних детей в игре Pokémon.
MC-Bench: больше, чем просто программный тест
Технически MC-Bench является программным тестом, поскольку требует от моделей ИИ написания кода для создания построек, таких как «Снеговик Фрости» или «очаровательная тропическая хижина на нетронутом песчаном берегу». Однако привлекательность платформы заключается в ее доступности. Пользователям легче оценить визуальное качество постройки, чем анализировать код, что расширяет охват проекта и потенциал для сбора данных о производительности моделей.
Дискуссия о том, действительно ли эти результаты отражают полезность ИИ, продолжается. Однако Сингх считает, что они являются сильным индикатором. «Текущая таблица лидеров довольно точно отражает мой собственный опыт использования этих моделей, в отличие от многих чисто текстовых тестов,» — сказал он. «Возможно, [MC-Bench] может быть полезен компаниям, чтобы понять, движутся ли они в правильном направлении.»




This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰




マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲




¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄




Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊




マインクラフトを使ったAIのベンチマーク、面白いですね!ゲームがAIのテストに使われるなんて、まるでAI同士が仮想世界で競っているみたい。ただ、時々ビルドがシンプルすぎるのが残念。でも全体的に素晴らしいアイデアだと思います!👍




This high school student's Minecraft AI challenge website is super cool! It's a fun way to see how AI can build stuff in Minecraft. The only thing is, sometimes the challenges are too hard for beginners. Still, it's a great project and I can't wait to see what comes next! 🎮












