高中生為AI Minecraft建立挑戰創建網站

首頁

新聞

2025-04-18

EdwardEvans

224

使用Minecraft進行創意AI基準測試

隨著傳統AI基準測試方法的不足，開發者們正探索創新的方式來評估生成式AI模型的能力。其中一種創意方法是使用Minecraft，這款由Microsoft擁有的熱門沙盒遊戲。一群開發者推出了Minecraft Benchmark，或稱MC-Bench，這是一個讓AI模型根據給定提示競爭創建Minecraft建築的平台。

在MC-Bench上，使用者可以投票選擇他們偏好的AI模型創作，且只有在投票後才會得知每件建築是由哪個模型製作的。這種互動方式不僅吸引了社群參與，還提供了一種獨特的方式來評估AI的能力。

圖片來源：Minecraft Benchmark

Adi Singh，一位12年級學生，也是MC-Bench的發起人，認為Minecraft的廣泛知名度是關鍵。作為有史以來最暢銷的電子遊戲，許多人都對它很熟悉，這使得人們即使沒有親自玩過遊戲，也能更容易判斷AI生成建築的品質。Singh向TechCrunch解釋說：「Minecraft讓人們更容易看到[AI發展]的進展。」他補充道：「人們習慣了Minecraft的風格和氛圍。」

MC-Bench由八名志願者組成的團隊支持。像Anthropic、Google、OpenAI和Alibaba這樣的企業提供了他們的產品來運行基準測試提示，但他們並未以其他方式參與該項目。

Singh設想將MC-Bench擴展到超越簡單建築，朝著更複雜、以目標為導向的任務發展。他說：「遊戲可能只是一種測試代理推理的媒介，相較於現實生活更安全，且更可控，適合測試用途，這在我看來更為理想。」

其他遊戲作為AI基準

除了Minecraft，其他遊戲如Pokémon Red、Street Fighter和Pictionary也已被用作AI的實驗性基準。AI基準測試的挑戰在於其複雜性，因為傳統的標準化測試往往偏向AI模型，這是由於它們的訓練方式在狹窄的問題解決領域（如機械記憶或基本推斷）中表現出色。

例如，OpenAI的GPT-4在LSAT考試中能達到88百分位的成績，但在像計算「strawberry」中R的數量這樣較簡單的任務上卻表現不佳。同樣，Anthropic的Claude 3.7 Sonnet在軟體工程基準測試中達到62.3%的準確率，但在玩Pokémon時的表現卻不如大多數五歲的孩子。

圖片來源：Minecraft Benchmark

MC-Bench：不僅僅是程式設計基準

從技術上講，MC-Bench是一個程式設計基準，因為它要求AI模型撰寫程式碼來創建像「雪人Frosty」或「原始沙灘上的迷人熱帶小屋」這樣的建築。然而，這個平台的吸引力在於其可及性。使用者評估建築的視覺品質比分析程式碼更容易，這擴大了項目的影響力和收集模型性能數據的潛力。

關於這些分數是否真正反映AI實用性的爭論仍在繼續。然而，Singh認為它們是一個強有力的指標。他說：「目前的排行榜與我使用這些模型的個人經驗相當吻合，這與許多純文字基準不同。」他補充道：「也許[MC-Bench]對企業來說有助於了解他們是否朝著正確的方向前進。」

Suno 領投方：刪除貼文無法彌補版權訴訟的漏洞備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭，而其主要投資人的坦率言論，可能正好提供了對方所期盼的證據。 Menlo Ventures（Suno的核心投資者）合夥人C.C. Gong最近刪除了一則推文，該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中，Suno 的辯護主要依賴「合理使用」的論點，聲稱 AI 生成的音樂僅僅是一種「工具」，不會直接與受版權保護的原創作

Claude Opus 4.7 正式推出，重視可靠性勝於智能 Anthropic 今年持續保持強勁的開發步調，幾乎每隔一天就會推出新功能。備受期待的 Claude Opus 4.7 剛正式發布，有趣的是，Anthropic 在公告中直言不諱地表示：「這並非我們最強大的模型。」傳聞中更強大的 Claude Mythos Preview 仍處於待命狀態。儘管如此，Opus 4.7 仍引起了相當大的關注，因為它著重解決的是「更可靠」而非「更聰明」的問題。基準測試

海爾推出全球最輕的 AI 運動外骨骼機器人，重量僅 1.75 公斤海爾集團推出全球最輕量的運動用人工智慧外骨骼機器人——海爾外骨骼機器人 W3。此次發布創下業界最輕量的新紀錄，標誌著在輕量化設計與智能人體動作增強領域取得重大突破。頂級材質成就超輕量設計W3採用創新的一體成型製造工藝，結合全碳纖維與鈦合金。這種航空級材質組合將總重量控制在僅1.75公斤，實現了輕量化與強度兼備的極致機械性能。為提升舒適度，機器人內置非牛頓流體材質，接觸皮膚時觸感柔軟，但在劇烈運動時

相關專題推薦

漫畫創作

少年漫畫頂尖 AI 生成器：打造高張力動作場面與能量特效

立即前往 XIX.AI，探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單，匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試，比較免費與付費選項的差異。釋放您的創作潛能，今天就開始打造史詩級漫畫吧！

15 個工具

xix.ai

商業

最佳 AI 支出追蹤工具：掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具：備受好評的解決方案，可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案，助您輕鬆管理報銷、精準追蹤財務，並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南，將協助您找到最合適的選擇。透過 XIX.AI 的專家精選，釋放您的 AI 優勢。

10 個工具

xix.ai

商業

最佳 AI 招聘工具：篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案，可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜，比較免費與付費選項。立即找到最適合您的招聘助手，並優化您的招聘流程！

10 個工具

xix.ai

生產率

AI 個人健康與專注力教練：管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具，助您管理倦怠感並提升精神能量。透過實際使用心得，比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具

xix.ai

聊天機器人

最受好評的 AI 浪漫聊天機器人：透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人，助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較，以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶，並開始建立這段關係吧。

10 個工具

xix.ai

教育與學習

最佳AI資料科學導師：精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師，幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單，獲得強大而具有變革性的指導。透過對比免費和付費選項，並結合實際應用案例進行了解，今天就開啟你的資料科學精通之路吧。

10 個工具

xix.ai

評論 (27)

0/500

請登錄後再操作

DouglasMartinez

2026-04-16 22:00:52

Interesting approach! Using Minecraft for AI benchmarking sounds way more engaging than standard tests. Wonder if this could lead to AI that actually helps design game worlds? The student's project is a cool example of how gaming and AI research can mix. Hope they share the results! 🎮

RaymondGreen

2026-03-09 12:00:46

高校生がAI建築チャレンジのサイトを作ったのか…！Minecraftの世界でAIの創造性を測るってアイデア、すごく面白いな。でも、これって結局マイクロソフトのプロモーションみたいなものじゃないの？AIがどんどんゲーム内に溶け込んでいくの、ちょっと怖い気もする😅 未来のゲームはすべてAIが作っちゃうのかな？

NicholasYoung

2025-10-21 02:30:49

AIが建築対決するなんて面白すぎる！🏗️ Minecraftでベンチマークを取る発想が新鮮だけど、これってゲームバランス崩さないのかな？ちょっと心配…

JamesMiller

2025-10-16 02:30:35

É sempre incrível ver jovens inovando com IA! Alguém já testou se esses desafios do Minecraft realmente conseguem medir bem a criatividade dos modelos? Ou será que é só mais uma moda passageira? 😅

RalphRoberts

2025-09-21 06:30:34

这个高中生用Minecraft来测试AI生成建筑也太有创意了吧！😂 传统AI评测标准太死板了，确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么，是美观度还是还原度？也想试试看用我的世界来测试Stable Diffusion效果

JasonJohnson

2025-08-23 09:01:25

This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎

頭號新聞

AI Builder和Power Automate革新文件摘要 AI寄主Notebooklm播客現已上中國發布國家級人形機器人與具身智能標準 Ramp 數據顯示，企業對 AI 的採納已進入停滯期 Bing圖像創作者教程：AI藝術生成指南學習使用您的聲音創建AI音樂：逐步Suno教程 iMyFone MagicMic：實時AI變聲器評測與教程 2025頂級AI影片生成器：Pika Labs與其他對比 DeepSeek V4 崛起為多模態人工智慧的變革者 Embodied Intelligence 公布首項業界標準，以遏止無序擴張

精選