選項
首頁
新聞
高中生為AI Minecraft建立挑戰創建網站

高中生為AI Minecraft建立挑戰創建網站

2025-04-18
119

使用Minecraft進行創意AI基準測試

隨著傳統AI基準測試方法的不足,開發者們正探索創新的方式來評估生成式AI模型的能力。其中一種創意方法是使用Minecraft,這款由Microsoft擁有的熱門沙盒遊戲。一群開發者推出了Minecraft Benchmark,或稱MC-Bench,這是一個讓AI模型根據給定提示競爭創建Minecraft建築的平台。

在MC-Bench上,使用者可以投票選擇他們偏好的AI模型創作,且只有在投票後才會得知每件建築是由哪個模型製作的。這種互動方式不僅吸引了社群參與,還提供了一種獨特的方式來評估AI的能力。

圖片來源:Minecraft Benchmark

圖片來源:Minecraft Benchmark

Adi Singh,一位12年級學生,也是MC-Bench的發起人,認為Minecraft的廣泛知名度是關鍵。作為有史以來最暢銷的電子遊戲,許多人都對它很熟悉,這使得人們即使沒有親自玩過遊戲,也能更容易判斷AI生成建築的品質。Singh向TechCrunch解釋說:「Minecraft讓人們更容易看到[AI發展]的進展。」他補充道:「人們習慣了Minecraft的風格和氛圍。」

MC-Bench由八名志願者組成的團隊支持。像Anthropic、Google、OpenAI和Alibaba這樣的企業提供了他們的產品來運行基準測試提示,但他們並未以其他方式參與該項目。

Singh設想將MC-Bench擴展到超越簡單建築,朝著更複雜、以目標為導向的任務發展。他說:「遊戲可能只是一種測試代理推理的媒介,相較於現實生活更安全,且更可控,適合測試用途,這在我看來更為理想。」

其他遊戲作為AI基準

除了Minecraft,其他遊戲如Pokémon Red、Street Fighter和Pictionary也已被用作AI的實驗性基準。AI基準測試的挑戰在於其複雜性,因為傳統的標準化測試往往偏向AI模型,這是由於它們的訓練方式在狹窄的問題解決領域(如機械記憶或基本推斷)中表現出色。

例如,OpenAI的GPT-4在LSAT考試中能達到88百分位的成績,但在像計算「strawberry」中R的數量這樣較簡單的任務上卻表現不佳。同樣,Anthropic的Claude 3.7 Sonnet在軟體工程基準測試中達到62.3%的準確率,但在玩Pokémon時的表現卻不如大多數五歲的孩子。

圖片來源:Minecraft Benchmark

圖片來源:Minecraft Benchmark

MC-Bench:不僅僅是程式設計基準

從技術上講,MC-Bench是一個程式設計基準,因為它要求AI模型撰寫程式碼來創建像「雪人Frosty」或「原始沙灘上的迷人熱帶小屋」這樣的建築。然而,這個平台的吸引力在於其可及性。使用者評估建築的視覺品質比分析程式碼更容易,這擴大了項目的影響力和收集模型性能數據的潛力。

關於這些分數是否真正反映AI實用性的爭論仍在繼續。然而,Singh認為它們是一個強有力的指標。他說:「目前的排行榜與我使用這些模型的個人經驗相當吻合,這與許多純文字基準不同。」他補充道:「也許[MC-Bench]對企業來說有助於了解他們是否朝著正確的方向前進。」

相關文章
亞馬遜推出增強版Alexa+,具備先進AI功能 亞馬遜推出增強版Alexa+,具備先進AI功能 在週三於紐約舉行的一場活動中,亞馬遜推出了增強版Alexa+體驗,採用尖端生成式AI技術驅動。亞馬遜設備與服務負責人帕諾斯·帕奈(Panos Panay)形容這是對AI助手的“全面改造”。“雖然Alexa的願景一直大膽而引人入勝,但至今技術限制阻礙了我們的進展,”帕奈表示。“單獨的AI聊天機器人無法實現我們對Alexa的期望。”亞馬遜聲稱,升級後的Alexa+能通過訪問用戶帳戶數據,回答像“我今年
2025年使用AI工具打造病毒式聊天故事影片指南 2025年使用AI工具打造病毒式聊天故事影片指南 在動態的社交媒體領域,製作引人入勝的內容對於吸引觀眾興趣和建立強大的線上影響力至關重要。聊天故事影片在YouTube Shorts和TikTok等平台上大受歡迎。這類影片模擬文字訊息對話,因其貼近生活且引人入勝的敘事而廣受歡迎。本指南提供了一個詳細的路線圖,強調使用AI工具來簡化和加速製作過程。透過人工智慧,創作者可以輕鬆應對挑戰,打造高品質、引人入勝的聊天故事影片。主要亮點聊天故事影片是與You
Google承諾遵循歐盟AI實踐守則,引發業界爭論 Google承諾遵循歐盟AI實踐守則,引發業界爭論 Google已承諾採用歐盟的志願性AI實踐守則,這一框架旨在協助AI開發者通過實施合規流程和系統,與歐盟的AI法案保持一致。相比之下,Meta最近拒絕簽署該守則,批評歐盟的AI法規過於嚴苛,並警告歐洲的做法可能阻礙AI進展。Google的決定是在“具系統性風險的通用AI模型”新法規於8月2日生效前做出的。像Anthropic、Google、Meta和OpenAI等主要參與者,以及其他大型生成模型,
評論 (21)
0/200
BenGarcía
BenGarcía 2025-08-04 14:01:00

This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰

GregoryJones
GregoryJones 2025-04-21 05:02:52

マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲

JonathanKing
JonathanKing 2025-04-20 16:42:35

¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄

RalphHill
RalphHill 2025-04-20 11:41:36

Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊

CharlesThomas
CharlesThomas 2025-04-20 06:49:16

マインクラフトを使ったAIのベンチマーク、面白いですね!ゲームがAIのテストに使われるなんて、まるでAI同士が仮想世界で競っているみたい。ただ、時々ビルドがシンプルすぎるのが残念。でも全体的に素晴らしいアイデアだと思います!👍

KennethLee
KennethLee 2025-04-20 05:58:54

This high school student's Minecraft AI challenge website is super cool! It's a fun way to see how AI can build stuff in Minecraft. The only thing is, sometimes the challenges are too hard for beginners. Still, it's a great project and I can't wait to see what comes next! 🎮

回到頂部
OR