高中生为AI Minecraft建立挑战创建网站

首页

新闻

2025-04-18

EdwardEvans

141

使用Minecraft进行创意AI基准测试

随着传统AI基准测试方法的不足，开发者们正在探索创新方法来评估生成式AI模型的能力。其中一种创意方法是使用Microsoft旗下的热门沙盒游戏Minecraft。一组开发者推出了Minecraft基准测试，或称MC-Bench，这是一个平台，让AI模型根据给定的提示竞争创建Minecraft建筑。

在MC-Bench上，用户可以投票选择他们喜欢的AI模型创作，并且只有在投票后才会知道每个建筑是由哪个模型创建的。这种互动方式不仅吸引了社区参与，还提供了一种独特的方式来评估AI能力。

图片来源：Minecraft Benchmark

Adi Singh，一名12年级学生，也是MC-Bench的发起人，认为Minecraft的广泛知名度是关键。作为有史以来最畅销的视频游戏，它为许多人所熟悉，使人们更容易判断AI生成建筑的质量，即使他们自己没有玩过这款游戏。Singh对TechCrunch解释说：“Minecraft让人们更容易看到AI发展的进展。人们已经习惯了Minecraft的画面和氛围。”

MC-Bench由八名志愿者组成的团队支持。Anthropic、Google、OpenAI和Alibaba等公司提供了他们的产品用于运行基准测试提示，尽管他们并未以其他方式参与该项目。

Singh设想将MC-Bench扩展到超越简单建筑的更复杂、目标导向的任务。他表示：“游戏可能只是一个测试代理推理的媒介，相比现实生活更安全，且更可控，适合测试目的，在我看来更理想。”

其他游戏作为AI基准

除了Minecraft，其他游戏如Pokémon Red、Street Fighter和Pictionary也被用作AI的实验性基准测试。AI基准测试的挑战在于其复杂性，因为传统标准化测试通常偏向于AI模型，这些模型因训练方法而在狭窄问题解决领域（如机械记忆或基本推断）表现优异。

例如，OpenAI的GPT-4在LSAT考试中能获得88%的分数，但却难以完成像统计“strawberry”中R字母数量这样的简单任务。同样，Anthropic的Claude 3.7 Sonnet在软件工程基准测试中达到62.3%的准确率，但在玩Pokémon时远不如大多数五岁儿童。

图片来源：Minecraft Benchmark

MC-Bench：不仅仅是编程基准

从技术角度看，MC-Bench是一个编程基准测试，因为它要求AI模型编写代码来创建像“雪人Frosty”或“原始沙滩上的迷人热带小屋”这样的建筑。然而，该平台的吸引力在于其可访问性。用户更容易评估建筑的视觉质量，而不是分析代码，这拓宽了项目的覆盖范围和模型性能数据收集的潜力。

关于这些分数是否真正反映AI实用性的争论仍在继续。然而，Singh认为它们是一个强有力的指标。他说：“当前的排行榜非常贴近我使用这些模型的体验，这与许多纯文本基准测试不同。也许MC-Bench可以帮助公司了解他们是否朝着正确的方向前进。”

Manus 推出 "广泛研究 "人工智能工具，100 多个代理可进行网络搜索中国人工智能创新企业 Manus 曾因其面向消费者和专业用户的开创性多代理编排平台而备受关注，如今它又推出了一项突破性的技术应用，对传统的人工智能研究方法提出了挑战。重新思考人工智能驱动的研究OpenAI、谷歌和 xAI 等竞争对手开发了专门的 "深度研究"（Deep Research）代理，能够进行长达数小时的调查并生成详细的报告，与之不同的是，Manus 通过其新的 "广度研究"（Wide R

法学硕士为何无视指示以及如何有效解决这一问题了解大型语言模型跳过指令的原因大型语言模型（LLM）改变了我们与人工智能的交互方式，使从对话界面到自动内容生成和编程辅助等各种高级应用成为可能。然而，用户经常会遇到一个令人沮丧的限制：这些模型偶尔会忽略特定指令，尤其是在复杂或冗长的提示中。这种任务执行不完整的问题不仅会影响输出质量，还会降低用户对这些系统的信心。研究这种行为背后的根本原因，可以为优化 LLM 交互提供有价值的见解。LLM 处

经过法律诉讼，Pebble 重新获得了原品牌名称鹅卵石的回归名称与一切Pebble 的爱好者们可以欢呼雀跃了--这个备受喜爱的智能手表品牌不仅卷土重来，还夺回了自己的标志性名称。"Core Devices 公司首席执行官 Eric Migicovsky 在公司博客更新中透露："我们已经成功地重新获得了 Pebble 商标，其顺利程度着实让我感到惊讶。这意味着之前发布的 Core 2 Duo 现在将正式命名为 Pebble 2 Duo，而 Cor

0/200

提交

RalphRoberts

2025-09-21 06:30:34

这个高中生用Minecraft来测试AI生成建筑也太有创意了吧！😂 传统AI评测标准太死板了，确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么，是美观度还是还原度？也想试试看用我的世界来测试Stable Diffusion效果

JasonJohnson

2025-08-23 09:01:25

This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎

BenGarcía

2025-08-04 14:01:00

This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰

GregoryJones

2025-04-21 05:02:52

マインクラフトでAIの性能を評価するなんて面白いアイデアだね！ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ！高校生が作ったなんて信じられない！😲

JonathanKing

2025-04-20 16:42:35

¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄

RalphHill

2025-04-20 11:41:36

Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊

头条新闻

Gemini 2.5 Pro现在比Claude，GPT-4O更便宜，更便宜 2025顶级AI视频生成器：Pika Labs与其他对比 AI配音：真实声音创作终极指南 Cambium的AI将垃圾木头变成木材 Openai增强了AI语音助手以进行更好的聊天如何确保您的数据值得信赖AI集成 NotebookLM在全球范围内扩展，添加幻灯片并增强了事实检查对美国数据中心的调整可以解锁76 GW的新电源容量 Google利用AI暂停了超过3900万的广告帐户，以涉嫌欺诈 AI语音克隆：掌握语音转换的终极指南

精选