opción
Hogar
Noticias
El estudiante de secundaria crea un sitio web para los desafíos de AI Minecraft Build-Off

El estudiante de secundaria crea un sitio web para los desafíos de AI Minecraft Build-Off

18 de abril de 2025
141

Benchmarking de IA Creativa con Minecraft

A medida que los métodos tradicionales de evaluación de IA se quedan cortos, los desarrolladores están explorando enfoques innovadores para evaluar las capacidades de los modelos de IA generativa. Uno de estos métodos creativos implica el uso de Minecraft, el popular juego sandbox propiedad de Microsoft. Un grupo de desarrolladores ha lanzado Minecraft Benchmark, o MC-Bench, una plataforma donde los modelos de IA compiten en la creación de construcciones en Minecraft basadas en prompts dados.

En MC-Bench, los usuarios pueden votar por la creación de qué modelo de IA prefieren, y solo después de emitir su voto descubren qué modelo realizó cada construcción. Este enfoque interactivo no solo involucra a la comunidad, sino que también proporciona una forma única de evaluar las capacidades de la IA.

Créditos de la imagen: Minecraft Benchmark

Créditos de la imagen: Minecraft Benchmark

Adi Singh, un estudiante de 12º grado y el iniciador de MC-Bench, cree que el reconocimiento generalizado de Minecraft es clave. Como el videojuego más vendido de todos los tiempos, es familiar para muchos, lo que facilita que las personas juzguen la calidad de las construcciones generadas por IA, incluso si no han jugado el juego ellos mismos. "Minecraft permite a las personas ver el progreso [del desarrollo de la IA] mucho más fácilmente," explicó Singh a TechCrunch. "La gente está acostumbrada a Minecraft, a su apariencia y su ambiente."

MC-Bench cuenta con el apoyo de un equipo de ocho colaboradores voluntarios. Empresas como Anthropic, Google, OpenAI y Alibaba han proporcionado sus productos para ejecutar prompts de evaluación, aunque no están involucradas de ninguna otra manera con el proyecto.

Singh prevé expandir MC-Bench más allá de construcciones simples hacia tareas más complejas y orientadas a objetivos. "Los juegos podrían ser solo un medio para probar el razonamiento agentivo que es más seguro que en la vida real y más controlable para fines de prueba, lo que lo hace más ideal en mi opinión," dijo.

Otros Juegos como Benchmarks de IA

Además de Minecraft, otros juegos como Pokémon Red, Street Fighter y Pictionary han sido utilizados como benchmarks experimentales para IA. El desafío de evaluar la IA radica en su complejidad, ya que las pruebas estandarizadas tradicionales a menudo favorecen a los modelos de IA debido a sus métodos de entrenamiento, que destacan en áreas de resolución de problemas específicas como la memorización mecánica o la extrapolación básica.

Por ejemplo, mientras que GPT-4 de OpenAI puede obtener una puntuación en el percentil 88 en el LSAT, tiene dificultades con tareas más simples como contar el número de Rs en "strawberry." De manera similar, Claude 3.7 Sonnet de Anthropic logró una precisión del 62.3% en un benchmark de ingeniería de software, pero se queda corto al jugar Pokémon en comparación con la mayoría de los niños de cinco años.

Créditos de la imagen: Minecraft Benchmark

Créditos de la imagen: Minecraft Benchmark

MC-Bench: Más que un Simple Benchmark de Programación

Técnicamente, MC-Bench es un benchmark de programación porque requiere que los modelos de IA escriban código para crear construcciones como "Frosty el Muñeco de Nieve" o "una encantadora cabaña en una playa tropical en una costa arenosa prístina." Sin embargo, el atractivo de la plataforma radica en su accesibilidad. Es más fácil para los usuarios evaluar la calidad visual de una construcción que analizar el código, lo que amplía el alcance del proyecto y su potencial para la recolección de datos sobre el rendimiento del modelo.

El debate continúa sobre si estas puntuaciones reflejan realmente la utilidad de la IA. Sin embargo, Singh cree que son un fuerte indicador. "La tabla de clasificación actual refleja bastante de cerca mi propia experiencia al usar estos modelos, lo cual es diferente a muchos benchmarks puramente de texto," dijo. "Tal vez [MC-Bench] podría ser útil para las empresas para saber si están yendo en la dirección correcta."

Artículo relacionado
Manus estrena su herramienta de IA Manus estrena su herramienta de IA "Wide Research" con más de 100 agentes para el raspado web Manus, empresa china innovadora en IA, que ya había llamado la atención por su pionera plataforma de orquestación multiagente dirigida tanto a consumidores como a usuarios profesionales, ha desvelado
Por qué los LLM ignoran las instrucciones y cómo solucionarlo eficazmente Por qué los LLM ignoran las instrucciones y cómo solucionarlo eficazmente Comprender por qué los modelos lingüísticos de gran tamaño omiten instruccionesLos grandes modelos lingüísticos (LLM) han transformado la forma en que interactuamos con la IA, permitiendo aplicacione
Pebble recupera su marca original tras una batalla legal Pebble recupera su marca original tras una batalla legal El regreso de Pebble: Con nombre y todoLos entusiastas de Pebble pueden alegrarse: la querida marca de relojes inteligentes no sólo regresa, sino que recupera su emblemático nombre. "Hemos recuperado
comentario (23)
0/200
RalphRoberts
RalphRoberts 21 de septiembre de 2025 00:30:34 GMT+02:00

这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果

JasonJohnson
JasonJohnson 23 de agosto de 2025 03:01:25 GMT+02:00

This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎

BenGarcía
BenGarcía 4 de agosto de 2025 08:01:00 GMT+02:00

This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰

GregoryJones
GregoryJones 20 de abril de 2025 23:02:52 GMT+02:00

マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲

JonathanKing
JonathanKing 20 de abril de 2025 10:42:35 GMT+02:00

¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄

RalphHill
RalphHill 20 de abril de 2025 05:41:36 GMT+02:00

Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊

Volver arriba
OR