選項
首頁
新聞
高中生為AI Minecraft建立挑戰創建網站

高中生為AI Minecraft建立挑戰創建網站

2025-04-18
141

使用Minecraft進行創意AI基準測試

隨著傳統AI基準測試方法的不足,開發者們正探索創新的方式來評估生成式AI模型的能力。其中一種創意方法是使用Minecraft,這款由Microsoft擁有的熱門沙盒遊戲。一群開發者推出了Minecraft Benchmark,或稱MC-Bench,這是一個讓AI模型根據給定提示競爭創建Minecraft建築的平台。

在MC-Bench上,使用者可以投票選擇他們偏好的AI模型創作,且只有在投票後才會得知每件建築是由哪個模型製作的。這種互動方式不僅吸引了社群參與,還提供了一種獨特的方式來評估AI的能力。

圖片來源:Minecraft Benchmark

圖片來源:Minecraft Benchmark

Adi Singh,一位12年級學生,也是MC-Bench的發起人,認為Minecraft的廣泛知名度是關鍵。作為有史以來最暢銷的電子遊戲,許多人都對它很熟悉,這使得人們即使沒有親自玩過遊戲,也能更容易判斷AI生成建築的品質。Singh向TechCrunch解釋說:「Minecraft讓人們更容易看到[AI發展]的進展。」他補充道:「人們習慣了Minecraft的風格和氛圍。」

MC-Bench由八名志願者組成的團隊支持。像Anthropic、Google、OpenAI和Alibaba這樣的企業提供了他們的產品來運行基準測試提示,但他們並未以其他方式參與該項目。

Singh設想將MC-Bench擴展到超越簡單建築,朝著更複雜、以目標為導向的任務發展。他說:「遊戲可能只是一種測試代理推理的媒介,相較於現實生活更安全,且更可控,適合測試用途,這在我看來更為理想。」

其他遊戲作為AI基準

除了Minecraft,其他遊戲如Pokémon Red、Street Fighter和Pictionary也已被用作AI的實驗性基準。AI基準測試的挑戰在於其複雜性,因為傳統的標準化測試往往偏向AI模型,這是由於它們的訓練方式在狹窄的問題解決領域(如機械記憶或基本推斷)中表現出色。

例如,OpenAI的GPT-4在LSAT考試中能達到88百分位的成績,但在像計算「strawberry」中R的數量這樣較簡單的任務上卻表現不佳。同樣,Anthropic的Claude 3.7 Sonnet在軟體工程基準測試中達到62.3%的準確率,但在玩Pokémon時的表現卻不如大多數五歲的孩子。

圖片來源:Minecraft Benchmark

圖片來源:Minecraft Benchmark

MC-Bench:不僅僅是程式設計基準

從技術上講,MC-Bench是一個程式設計基準,因為它要求AI模型撰寫程式碼來創建像「雪人Frosty」或「原始沙灘上的迷人熱帶小屋」這樣的建築。然而,這個平台的吸引力在於其可及性。使用者評估建築的視覺品質比分析程式碼更容易,這擴大了項目的影響力和收集模型性能數據的潛力。

關於這些分數是否真正反映AI實用性的爭論仍在繼續。然而,Singh認為它們是一個強有力的指標。他說:「目前的排行榜與我使用這些模型的個人經驗相當吻合,這與許多純文字基準不同。」他補充道:「也許[MC-Bench]對企業來說有助於了解他們是否朝著正確的方向前進。」

相關文章
美國政府投資 Intel 以提升國內半導體產量 美國政府投資 Intel 以提升國內半導體產量 川普政府已將建立美國在人工智慧領域的領導地位視為首要任務,而半導體生產的重組則是其中一項基石策略。最近的政策舉措,包括建議的關稅和財務獎勵措施,都顯示出加強國內晶片製造能力的決心。八月,政府將現有的半導體製造補助轉換為英特爾公司 10% 的股權,成為頭條新聞。這項獨特的協議包含了一些條款,如果英特爾在其晶圓代工業務(為全球客戶生產客製化晶片)的所有權在五年內低於多數控制權,聯邦政府將獲得額外的
Apple 的 Craig Federighi 承認人工智慧 Siri 早期階段有嚴重缺陷 Apple 的 Craig Federighi 承認人工智慧 Siri 早期階段有嚴重缺陷 蘋果高層解釋 Siri 升級延遲的原因在 WWDC 2024 期間,Apple 原本承諾會大幅提升 Siri 功能,包括個人化情境感知和應用程式自動化功能。然而,該公司最近證實這些功能的交付將會延遲。高級副總裁 Craig Federighi (軟體工程) 與 Greg Joswiak (全球行銷) 在接受《華爾街日報》的 Joanna Stern 獨家專訪時,談到這些延遲的問題。Fede
掌握 AI Inpainting 技術:無懈可擊的圖像編輯中途指南 掌握 AI Inpainting 技術:無懈可擊的圖像編輯中途指南 探索 Midjourney 的 AI Inpainting 技術的變革能力,這項革命性的功能可讓創作者以外科手術般的精準度,精緻和完善 AI 所產生的作品。這本權威指南揭示了如何運用這項強大工具來提升您的創意專案的專業技巧,無論您是要進行微妙的改進或戲劇性的構圖變化 - 一切都在 Midjourney 的直覺式平台中進行。重點Midjourney 的內繪工具可透過選擇性編輯,對影像進行有針對性的修
評論 (23)
0/200
RalphRoberts
RalphRoberts 2025-09-21 06:30:34

这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果

JasonJohnson
JasonJohnson 2025-08-23 09:01:25

This high school kid building an AI Minecraft challenge site is wild! 🧱 Makes me wonder how far AI can push creativity in games. Could it outbuild my epic castle? 😎

BenGarcía
BenGarcía 2025-08-04 14:01:00

This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰

GregoryJones
GregoryJones 2025-04-21 05:02:52

マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲

JonathanKing
JonathanKing 2025-04-20 16:42:35

¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄

RalphHill
RalphHill 2025-04-20 11:41:36

Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊

回到頂部
OR