El estudiante de secundaria crea un sitio web para los desafíos de AI Minecraft Build-Off

Hogar

Noticias

18 de abril de 2025

EdwardEvans

224

Benchmarking de IA Creativa con Minecraft

A medida que los métodos tradicionales de evaluación de IA se quedan cortos, los desarrolladores están explorando enfoques innovadores para evaluar las capacidades de los modelos de IA generativa. Uno de estos métodos creativos implica el uso de Minecraft, el popular juego sandbox propiedad de Microsoft. Un grupo de desarrolladores ha lanzado Minecraft Benchmark, o MC-Bench, una plataforma donde los modelos de IA compiten en la creación de construcciones en Minecraft basadas en prompts dados.

En MC-Bench, los usuarios pueden votar por la creación de qué modelo de IA prefieren, y solo después de emitir su voto descubren qué modelo realizó cada construcción. Este enfoque interactivo no solo involucra a la comunidad, sino que también proporciona una forma única de evaluar las capacidades de la IA.

Créditos de la imagen: Minecraft Benchmark

Adi Singh, un estudiante de 12º grado y el iniciador de MC-Bench, cree que el reconocimiento generalizado de Minecraft es clave. Como el videojuego más vendido de todos los tiempos, es familiar para muchos, lo que facilita que las personas juzguen la calidad de las construcciones generadas por IA, incluso si no han jugado el juego ellos mismos. "Minecraft permite a las personas ver el progreso [del desarrollo de la IA] mucho más fácilmente," explicó Singh a TechCrunch. "La gente está acostumbrada a Minecraft, a su apariencia y su ambiente."

MC-Bench cuenta con el apoyo de un equipo de ocho colaboradores voluntarios. Empresas como Anthropic, Google, OpenAI y Alibaba han proporcionado sus productos para ejecutar prompts de evaluación, aunque no están involucradas de ninguna otra manera con el proyecto.

Singh prevé expandir MC-Bench más allá de construcciones simples hacia tareas más complejas y orientadas a objetivos. "Los juegos podrían ser solo un medio para probar el razonamiento agentivo que es más seguro que en la vida real y más controlable para fines de prueba, lo que lo hace más ideal en mi opinión," dijo.

Otros Juegos como Benchmarks de IA

Además de Minecraft, otros juegos como Pokémon Red, Street Fighter y Pictionary han sido utilizados como benchmarks experimentales para IA. El desafío de evaluar la IA radica en su complejidad, ya que las pruebas estandarizadas tradicionales a menudo favorecen a los modelos de IA debido a sus métodos de entrenamiento, que destacan en áreas de resolución de problemas específicas como la memorización mecánica o la extrapolación básica.

Por ejemplo, mientras que GPT-4 de OpenAI puede obtener una puntuación en el percentil 88 en el LSAT, tiene dificultades con tareas más simples como contar el número de Rs en "strawberry." De manera similar, Claude 3.7 Sonnet de Anthropic logró una precisión del 62.3% en un benchmark de ingeniería de software, pero se queda corto al jugar Pokémon en comparación con la mayoría de los niños de cinco años.

Créditos de la imagen: Minecraft Benchmark

MC-Bench: Más que un Simple Benchmark de Programación

Técnicamente, MC-Bench es un benchmark de programación porque requiere que los modelos de IA escriban código para crear construcciones como "Frosty el Muñeco de Nieve" o "una encantadora cabaña en una playa tropical en una costa arenosa prístina." Sin embargo, el atractivo de la plataforma radica en su accesibilidad. Es más fácil para los usuarios evaluar la calidad visual de una construcción que analizar el código, lo que amplía el alcance del proyecto y su potencial para la recolección de datos sobre el rendimiento del modelo.

El debate continúa sobre si estas puntuaciones reflejan realmente la utilidad de la IA. Sin embargo, Singh cree que son un fuerte indicador. "La tabla de clasificación actual refleja bastante de cerca mi propia experiencia al usar estos modelos, lo cual es diferente a muchos benchmarks puramente de texto," dijo. "Tal vez [MC-Bench] podría ser útil para las empresas para saber si están yendo en la dirección correcta."

Artículo relacionado

China Telecom invierte en Mianbi Intelligence y aumenta su capital a 713 000 yuanes para modelos de lenguaje a gran escala (LLM) e infraestructura de datos El «equipo nacional» y la figura destacada de la Universidad de Tsinghua en el ámbito de los modelos a gran escala están profundizando en su alineación estratégica. El 1 de marzo de 2026, según los úl

El Grupo Taotian acelera su reestructuración centrada en la IA y concede a los becarios cuotas de tokens gratuitas El Grupo TaoTian ha presentado recientemente el «Plan de Productividad con IA», diseñado para acelerar la integración de la tecnología de IA en las operaciones de comercio electrónico y los flujos de

Glean se centra en la infraestructura de IA empresarial en su carrera por el mercado La carrera por dominar la IA empresarial se está acelerando. Microsoft está incorporando Copilot a Office, Google está integrando Gemini en Workspace, y tanto OpenAI como Anthropic están vendiendo dir

Recomendaciones de temas especiales relacionados

escribiendo

Los mejores asistentes de IA para Xianxia y Wuxia: escribe progresiones épicas de cultivo y coreografías de artes marciales

Descubre los mejores asistentes de IA de 2026 para crear épicas historias de xianxia y wuxia. La lista seleccionada por XIX.AI incluye herramientas de primera categoría y revolucionarias para dominar la progresión en el camino del cultivo y la coreografía de las artes marciales. Compara las opciones gratuitas con las de pago mediante pruebas en condiciones reales. ¡Libera tu potencial creativo y empieza a escribir hoy mismo!

10 herramientas

xix.ai

código

Herramientas de codificación para aplicaciones móviles AI: Genera código multiplataforma en Flutter y React Native a partir de instrucciones proporcionadas.

Descubra los mejores herramientas de codificación para aplicaciones móviles basadas en IA en 2026, compatibles con Flutter y React Native. Nuestra lista, seleccionada cuidadosamente y evaluada por expertos, incluye soluciones poderosas que permiten generar código multiplataforma a partir de instrucciones sencillas. Compare opciones gratuitas y pagadas mediante pruebas reales. Acelere su desarrollo y cree aplicaciones de mejor calidad. Consulte las clasificaciones en XIX.AI ahora mismo.

10 herramientas

xix.ai

código

Las mejores extensiones de Chrome para generar contenido con IA: crea complementos personalizados para el navegador sin necesidad de saber programar

Descubre las mejores extensiones de Chrome para generar IA de 2026 en XIX.AI. Nuestra lista seleccionada incluye herramientas de primera categoría que no te puedes perder y que te permiten crear complementos personalizados para el navegador sin necesidad de programar. Compara las opciones gratuitas con las de pago, consulta pruebas reales y potencia tu productividad. ¡Explora las últimas clasificaciones y encuentra hoy mismo la herramienta perfecta para ti!

10 herramientas

xix.ai

Texto a voz

Mejor sistema de voz sintética multilingüe por IA: genera habla auténtica con acento nativo en más de 50 idiomas

Descubra los mejores herramientas de TTS multilingües basadas en IA de 2026 que ofrecen pronunciaciones auténticas con acento nativo en más de 50 idiomas. Explore nuestras clasificaciones seleccionadas y evaluadas, con comparaciones entre opciones gratuitas y pagas, así como pruebas reales en el mundo real. Encuentre la herramienta de voz perfecta para usted en XIX.AI y desbloquee las posibilidades de la comunicación global hoy mismo.

10 herramientas

xix.ai

Asistente de reuniones

Los mejores herramientas de automatización de reuniones con IA para una colaboración más inteligente y rápida

Descubra las herramientas de automatización de reuniones con IA más recientes y mejor evaluadas en 2026 para una colaboración más inteligente y rápida. Nuestra lista seleccionada incluye soluciones poderosas que revolucionarán la forma en que se toman notas, se realizan resúmenes y se planifican acciones. Compare las opciones gratuitas con las pagadas a través de pruebas reales y clasificaciones actualizadas semanalmente. Desbloquee el máximo rendimiento de su equipo. Explore las mejores opciones ahora mismo en XIX.AI.

10 herramientas

xix.ai

Inmediato

Plantillas de IA para «infraestructura como código»: implementa configuraciones de Terraform y Docker de forma segura

Descubre las mejores plantillas de IA de 2026 para «Infraestructura como código». La selección de XIX.AI te ayuda a implementar de forma segura configuraciones de Terraform y Docker, automatizar configuraciones en la nube y potenciar la productividad de DevOps. Compara las opciones gratuitas con las de pago mediante pruebas reales. Explora ahora y saca el máximo partido a tu ventaja en IA.

10 herramientas

xix.ai

comentario (27)

0/500

Inicie sesión primero

DouglasMartinez

16 de abril de 2026 16:00:52 GMT+02:00

Interesting approach! Using Minecraft for AI benchmarking sounds way more engaging than standard tests. Wonder if this could lead to AI that actually helps design game worlds? The student's project is a cool example of how gaming and AI research can mix. Hope they share the results! 🎮

RaymondGreen

9 de marzo de 2026 05:00:46 GMT+01:00

高校生がAI建築チャレンジのサイトを作ったのか…！Minecraftの世界でAIの創造性を測るってアイデア、すごく面白いな。でも、これって結局マイクロソフトのプロモーションみたいなものじゃないの？AIがどんどんゲーム内に溶け込んでいくの、ちょっと怖い気もする😅 未来のゲームはすべてAIが作っちゃうのかな？

NicholasYoung

20 de octubre de 2025 20:30:49 GMT+02:00

AIが建築対決するなんて面白すぎる！🏗️ Minecraftでベンチマークを取る発想が新鮮だけど、これってゲームバランス崩さないのかな？ちょっと心配…

JamesMiller

15 de octubre de 2025 20:30:35 GMT+02:00

É sempre incrível ver jovens inovando com IA! Alguém já testou se esses desafios do Minecraft realmente conseguem medir bem a criatividade dos modelos? Ou será que é só mais uma moda passageira? 😅

RalphRoberts

21 de septiembre de 2025 00:30:34 GMT+02:00

这个高中生用Minecraft来测试AI生成建筑也太有创意了吧！😂 传统AI评测标准太死板了，确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么，是美观度还是还原度？也想试试看用我的世界来测试Stable Diffusion效果

JasonJohnson

23 de agosto de 2025 03:01:25 GMT+02:00

This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Guía de creación de arte con el creador de imágenes de Bing Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como un revolucionario sistema de IA multimodal Cubiertas de Canciones con IA: Guía Definitiva para Crear Canciones Únicas

Más

Presentado