选项
首页
新闻
高中生为AI Minecraft建立挑战创建网站

高中生为AI Minecraft建立挑战创建网站

2025-04-18
119

使用Minecraft进行创意AI基准测试

随着传统AI基准测试方法的不足,开发者们正在探索创新方法来评估生成式AI模型的能力。其中一种创意方法是使用Microsoft旗下的热门沙盒游戏Minecraft。一组开发者推出了Minecraft基准测试,或称MC-Bench,这是一个平台,让AI模型根据给定的提示竞争创建Minecraft建筑。

在MC-Bench上,用户可以投票选择他们喜欢的AI模型创作,并且只有在投票后才会知道每个建筑是由哪个模型创建的。这种互动方式不仅吸引了社区参与,还提供了一种独特的方式来评估AI能力。

图片来源:Minecraft Benchmark

图片来源:Minecraft Benchmark

Adi Singh,一名12年级学生,也是MC-Bench的发起人,认为Minecraft的广泛知名度是关键。作为有史以来最畅销的视频游戏,它为许多人所熟悉,使人们更容易判断AI生成建筑的质量,即使他们自己没有玩过这款游戏。Singh对TechCrunch解释说:“Minecraft让人们更容易看到AI发展的进展。人们已经习惯了Minecraft的画面和氛围。”

MC-Bench由八名志愿者组成的团队支持。Anthropic、Google、OpenAI和Alibaba等公司提供了他们的产品用于运行基准测试提示,尽管他们并未以其他方式参与该项目。

Singh设想将MC-Bench扩展到超越简单建筑的更复杂、目标导向的任务。他表示:“游戏可能只是一个测试代理推理的媒介,相比现实生活更安全,且更可控,适合测试目的,在我看来更理想。”

其他游戏作为AI基准

除了Minecraft,其他游戏如Pokémon Red、Street Fighter和Pictionary也被用作AI的实验性基准测试。AI基准测试的挑战在于其复杂性,因为传统标准化测试通常偏向于AI模型,这些模型因训练方法而在狭窄问题解决领域(如机械记忆或基本推断)表现优异。

例如,OpenAI的GPT-4在LSAT考试中能获得88%的分数,但却难以完成像统计“strawberry”中R字母数量这样的简单任务。同样,Anthropic的Claude 3.7 Sonnet在软件工程基准测试中达到62.3%的准确率,但在玩Pokémon时远不如大多数五岁儿童。

图片来源:Minecraft Benchmark

图片来源:Minecraft Benchmark

MC-Bench:不仅仅是编程基准

从技术角度看,MC-Bench是一个编程基准测试,因为它要求AI模型编写代码来创建像“雪人Frosty”或“原始沙滩上的迷人热带小屋”这样的建筑。然而,该平台的吸引力在于其可访问性。用户更容易评估建筑的视觉质量,而不是分析代码,这拓宽了项目的覆盖范围和模型性能数据收集的潜力。

关于这些分数是否真正反映AI实用性的争论仍在继续。然而,Singh认为它们是一个强有力的指标。他说:“当前的排行榜非常贴近我使用这些模型的体验,这与许多纯文本基准测试不同。也许MC-Bench可以帮助公司了解他们是否朝着正确的方向前进。”

相关文章
2025年使用AI工具打造病毒式聊天故事视频指南 2025年使用AI工具打造病毒式聊天故事视频指南 在社交媒体的动态领域中,制作引人入胜的内容对于吸引观众兴趣和建立强大的在线存在至关重要。聊天故事视频在YouTube Shorts和TikTok等平台上迅速流行。这些视频模仿短信交流,通常因其贴近生活且引人入胜的叙事而获得关注。本指南提供了一个详细的路线图,介绍如何创建这些视频,重点介绍使用AI工具来简化和加速这一过程。通过利用人工智能,创作者可以轻松应对挑战,打造高质量、引人入胜的聊天故事视频。
谷歌承诺遵循欧盟人工智能实践准则引发行业争论 谷歌承诺遵循欧盟人工智能实践准则引发行业争论 谷歌承诺采纳欧盟自愿的人工智能实践准则,该框架旨在通过实施合规流程和系统,帮助人工智能开发者符合欧盟人工智能法案的要求。相比之下,Meta最近拒绝签署该准则,批评欧盟的人工智能法规过于严格,并警告欧洲的做法可能阻碍人工智能进步。谷歌的决定是在“具有系统性风险的通用人工智能模型”新规于8月2日生效前做出的。Anthropic、Google、Meta和OpenAI等主要参与者,以及其他大型生成模型,将
Uber的QueryGPT:用AI革新SQL查询创建 Uber的QueryGPT:用AI革新SQL查询创建 在快节奏、数据驱动的现代商业环境中,高效查询和管理数据对各种规模的组织至关重要。SQL作为数据库交互的核心语言,通常需要专业知识和时间。Uber的QueryGPT通过利用生成式AI将自然语言转化为SQL查询,简化数据访问并提升工程师、运营经理和数据科学家的生产力。探索QueryGPT如何重塑数据交互以及其开发过程中获得的关键洞察。关键要点Uber开发的QueryGPT利用生成式AI将自然语言转化为
评论 (21)
0/200
BenGarcía
BenGarcía 2025-08-04 14:01:00

This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰

GregoryJones
GregoryJones 2025-04-21 05:02:52

マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲

JonathanKing
JonathanKing 2025-04-20 16:42:35

¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄

RalphHill
RalphHill 2025-04-20 11:41:36

Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊

CharlesThomas
CharlesThomas 2025-04-20 06:49:16

マインクラフトを使ったAIのベンチマーク、面白いですね!ゲームがAIのテストに使われるなんて、まるでAI同士が仮想世界で競っているみたい。ただ、時々ビルドがシンプルすぎるのが残念。でも全体的に素晴らしいアイデアだと思います!👍

KennethLee
KennethLee 2025-04-20 05:58:54

This high school student's Minecraft AI challenge website is super cool! It's a fun way to see how AI can build stuff in Minecraft. The only thing is, sometimes the challenges are too hard for beginners. Still, it's a great project and I can't wait to see what comes next! 🎮

返回顶部
OR