O aluno do ensino médio cria um site para os desafios de construção da AI Minecraft
Benchmarking de IA Criativa com Minecraft
À medida que os métodos tradicionais de benchmarking de IA ficam aquém, os desenvolvedores estão explorando abordagens inovadoras para avaliar a capacidade dos modelos de IA generativa. Um desses métodos criativos envolve o uso do Minecraft, o popular jogo sandbox pertencente à Microsoft. Um grupo de desenvolvedores lançou o Minecraft Benchmark, ou MC-Bench, uma plataforma onde modelos de IA competem na criação de construções no Minecraft com base em prompts fornecidos.
No MC-Bench, os usuários podem votar em qual criação de modelo de IA preferem, e somente após votar descobrem qual modelo fez cada construção. Essa abordagem interativa não apenas envolve a comunidade, mas também oferece uma maneira única de avaliar as capacidades da IA.

Créditos da Imagem: Minecraft Benchmark Adi Singh, um estudante do 12º ano e o iniciador do MC-Bench, acredita que o amplo reconhecimento do Minecraft é fundamental. Como o videogame mais vendido de todos os tempos, ele é familiar para muitos, facilitando a avaliação da qualidade das construções geradas por IA, mesmo para aqueles que não jogaram o jogo. "O Minecraft permite que as pessoas vejam o progresso [do desenvolvimento da IA] muito mais facilmente," explicou Singh à TechCrunch. "As pessoas estão acostumadas com o Minecraft, com a aparência e a vibe."
O MC-Bench é apoiado por uma equipe de oito colaboradores voluntários. Empresas como Anthropic, Google, OpenAI e Alibaba forneceram seus produtos para executar prompts de benchmark, embora não estejam diretamente envolvidas com o projeto.
Singh planeja expandir o MC-Bench além de construções simples para tarefas mais complexas e orientadas a objetivos. "Os jogos podem ser apenas um meio para testar o raciocínio agentivo que é mais seguro do que na vida real e mais controlável para fins de teste, tornando-o mais ideal aos meus olhos," disse ele.
Outros Jogos como Benchmarks de IA
Além do Minecraft, outros jogos como Pokémon Red, Street Fighter e Pictionary têm sido usados como benchmarks experimentais para IA. O desafio de benchmarking de IA reside em sua complexidade, pois os testes padronizados tradicionais frequentemente favorecem modelos de IA devido aos seus métodos de treinamento, que se destacam em áreas específicas de resolução de problemas, como memorização mecânica ou extrapolação básica.
Por exemplo, enquanto o GPT-4 da OpenAI pode alcançar o 88º percentil no LSAT, ele enfrenta dificuldades em tarefas mais simples, como contar o número de Rs em "strawberry". Da mesma forma, o Claude 3.7 Sonnet da Anthropic alcançou 62,3% de precisão em um benchmark de engenharia de software, mas fica aquém ao jogar Pokémon em comparação com a maioria das crianças de cinco anos.

Créditos da Imagem: Minecraft Benchmark MC-Bench: Mais do que Apenas um Benchmark de Programação
Tecnicamente, o MC-Bench é um benchmark de programação porque exige que os modelos de IA escrevam código para criar construções como "Frosty, o Boneco de Neve" ou "uma charmosa cabana tropical em uma praia de areia intocada". No entanto, o apelo da plataforma está em sua acessibilidade. É mais fácil para os usuários avaliarem a qualidade visual de uma construção do que analisar o código, o que amplia o alcance do projeto e o potencial para coleta de dados sobre o desempenho do modelo.
O debate continua sobre se essas pontuações refletem verdadeiramente a utilidade da IA. Singh, no entanto, acredita que elas são um forte indicador. "A tabela de classificação atual reflete de forma bastante próxima minha própria experiência ao usar esses modelos, o que é diferente de muitos benchmarks puramente textuais," disse ele. "Talvez [o MC-Bench] possa ser útil para as empresas saberem se estão indo na direção certa."
Artigo relacionado
A IA do Minecraft Villager reimagina a música com uma capa de som exclusiva
O cenário da produção musical continua a se transformar à medida que as tecnologias de IA ampliam os limites criativos de maneiras inesperadas. Um desenvolvimento particularmente fascinante são os cov
Midjourney revela gerador de vídeo com IA de última geração para conteúdo criativo
Avanço na geração de vídeos com IA da MidjourneyA Midjourney revelou sua primeira ferramenta de geração de vídeo com IA, marcando uma expansão significativa além de seus renomados recursos de criação
O Google evita vazamentos do Pixel 10 ao revelar oficialmente o smartphone antes do previsto
O Google está provocando os fãs com um vislumbre antecipado de sua próxima linha de smartphones Pixel 10, mostrando o design oficial apenas algumas semanas antes do evento de lançamento programado par
Comentários (23)
0/200
RalphRoberts
20 de Setembro de 2025 à34 23:30:34 WEST
这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果
0
JasonJohnson
23 de Agosto de 2025 à25 02:01:25 WEST
This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎
0
BenGarcía
4 de Agosto de 2025 à0 07:01:00 WEST
This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰
0
GregoryJones
20 de Abril de 2025 à52 22:02:52 WEST
マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲
0
JonathanKing
20 de Abril de 2025 à35 09:42:35 WEST
¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄
0
RalphHill
20 de Abril de 2025 à36 04:41:36 WEST
Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊
0
Benchmarking de IA Criativa com Minecraft
À medida que os métodos tradicionais de benchmarking de IA ficam aquém, os desenvolvedores estão explorando abordagens inovadoras para avaliar a capacidade dos modelos de IA generativa. Um desses métodos criativos envolve o uso do Minecraft, o popular jogo sandbox pertencente à Microsoft. Um grupo de desenvolvedores lançou o Minecraft Benchmark, ou MC-Bench, uma plataforma onde modelos de IA competem na criação de construções no Minecraft com base em prompts fornecidos.
No MC-Bench, os usuários podem votar em qual criação de modelo de IA preferem, e somente após votar descobrem qual modelo fez cada construção. Essa abordagem interativa não apenas envolve a comunidade, mas também oferece uma maneira única de avaliar as capacidades da IA.
Adi Singh, um estudante do 12º ano e o iniciador do MC-Bench, acredita que o amplo reconhecimento do Minecraft é fundamental. Como o videogame mais vendido de todos os tempos, ele é familiar para muitos, facilitando a avaliação da qualidade das construções geradas por IA, mesmo para aqueles que não jogaram o jogo. "O Minecraft permite que as pessoas vejam o progresso [do desenvolvimento da IA] muito mais facilmente," explicou Singh à TechCrunch. "As pessoas estão acostumadas com o Minecraft, com a aparência e a vibe."
O MC-Bench é apoiado por uma equipe de oito colaboradores voluntários. Empresas como Anthropic, Google, OpenAI e Alibaba forneceram seus produtos para executar prompts de benchmark, embora não estejam diretamente envolvidas com o projeto.
Singh planeja expandir o MC-Bench além de construções simples para tarefas mais complexas e orientadas a objetivos. "Os jogos podem ser apenas um meio para testar o raciocínio agentivo que é mais seguro do que na vida real e mais controlável para fins de teste, tornando-o mais ideal aos meus olhos," disse ele.
Outros Jogos como Benchmarks de IA
Além do Minecraft, outros jogos como Pokémon Red, Street Fighter e Pictionary têm sido usados como benchmarks experimentais para IA. O desafio de benchmarking de IA reside em sua complexidade, pois os testes padronizados tradicionais frequentemente favorecem modelos de IA devido aos seus métodos de treinamento, que se destacam em áreas específicas de resolução de problemas, como memorização mecânica ou extrapolação básica.
Por exemplo, enquanto o GPT-4 da OpenAI pode alcançar o 88º percentil no LSAT, ele enfrenta dificuldades em tarefas mais simples, como contar o número de Rs em "strawberry". Da mesma forma, o Claude 3.7 Sonnet da Anthropic alcançou 62,3% de precisão em um benchmark de engenharia de software, mas fica aquém ao jogar Pokémon em comparação com a maioria das crianças de cinco anos.
MC-Bench: Mais do que Apenas um Benchmark de Programação
Tecnicamente, o MC-Bench é um benchmark de programação porque exige que os modelos de IA escrevam código para criar construções como "Frosty, o Boneco de Neve" ou "uma charmosa cabana tropical em uma praia de areia intocada". No entanto, o apelo da plataforma está em sua acessibilidade. É mais fácil para os usuários avaliarem a qualidade visual de uma construção do que analisar o código, o que amplia o alcance do projeto e o potencial para coleta de dados sobre o desempenho do modelo.
O debate continua sobre se essas pontuações refletem verdadeiramente a utilidade da IA. Singh, no entanto, acredita que elas são um forte indicador. "A tabela de classificação atual reflete de forma bastante próxima minha própria experiência ao usar esses modelos, o que é diferente de muitos benchmarks puramente textuais," disse ele. "Talvez [o MC-Bench] possa ser útil para as empresas saberem se estão indo na direção certa."




这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果




This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎




This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰




マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲




¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄




Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊












