高中生為AI Minecraft建立挑戰創建網站
使用Minecraft進行創意AI基準測試
隨著傳統AI基準測試方法的不足,開發者們正探索創新的方式來評估生成式AI模型的能力。其中一種創意方法是使用Minecraft,這款由Microsoft擁有的熱門沙盒遊戲。一群開發者推出了Minecraft Benchmark,或稱MC-Bench,這是一個讓AI模型根據給定提示競爭創建Minecraft建築的平台。
在MC-Bench上,使用者可以投票選擇他們偏好的AI模型創作,且只有在投票後才會得知每件建築是由哪個模型製作的。這種互動方式不僅吸引了社群參與,還提供了一種獨特的方式來評估AI的能力。

圖片來源:Minecraft Benchmark Adi Singh,一位12年級學生,也是MC-Bench的發起人,認為Minecraft的廣泛知名度是關鍵。作為有史以來最暢銷的電子遊戲,許多人都對它很熟悉,這使得人們即使沒有親自玩過遊戲,也能更容易判斷AI生成建築的品質。Singh向TechCrunch解釋說:「Minecraft讓人們更容易看到[AI發展]的進展。」他補充道:「人們習慣了Minecraft的風格和氛圍。」
MC-Bench由八名志願者組成的團隊支持。像Anthropic、Google、OpenAI和Alibaba這樣的企業提供了他們的產品來運行基準測試提示,但他們並未以其他方式參與該項目。
Singh設想將MC-Bench擴展到超越簡單建築,朝著更複雜、以目標為導向的任務發展。他說:「遊戲可能只是一種測試代理推理的媒介,相較於現實生活更安全,且更可控,適合測試用途,這在我看來更為理想。」
其他遊戲作為AI基準
除了Minecraft,其他遊戲如Pokémon Red、Street Fighter和Pictionary也已被用作AI的實驗性基準。AI基準測試的挑戰在於其複雜性,因為傳統的標準化測試往往偏向AI模型,這是由於它們的訓練方式在狹窄的問題解決領域(如機械記憶或基本推斷)中表現出色。
例如,OpenAI的GPT-4在LSAT考試中能達到88百分位的成績,但在像計算「strawberry」中R的數量這樣較簡單的任務上卻表現不佳。同樣,Anthropic的Claude 3.7 Sonnet在軟體工程基準測試中達到62.3%的準確率,但在玩Pokémon時的表現卻不如大多數五歲的孩子。

圖片來源:Minecraft Benchmark MC-Bench:不僅僅是程式設計基準
從技術上講,MC-Bench是一個程式設計基準,因為它要求AI模型撰寫程式碼來創建像「雪人Frosty」或「原始沙灘上的迷人熱帶小屋」這樣的建築。然而,這個平台的吸引力在於其可及性。使用者評估建築的視覺品質比分析程式碼更容易,這擴大了項目的影響力和收集模型性能數據的潛力。
關於這些分數是否真正反映AI實用性的爭論仍在繼續。然而,Singh認為它們是一個強有力的指標。他說:「目前的排行榜與我使用這些模型的個人經驗相當吻合,這與許多純文字基準不同。」他補充道:「也許[MC-Bench]對企業來說有助於了解他們是否朝著正確的方向前進。」
相關文章
耀科傳媒首部AIGC劇集《秦嶺青銅之謎》今日上線,主演均由AI選角
今日,耀科傳媒的AIGC奇幻懸疑短劇《秦嶺青銅秘事》正式上線。本劇由該公司首批簽約的兩位AI演員秦凌月與林西妍主演,故事背景設定在神秘莫測的秦嶺礦區。 劇情追隨退休情報官秦月帶領團隊深入該區域,揭開一樁塵封已久的礦難,以及跨越兩代人的血祭真相——這份真相就隱藏在受限的地下區域,正是科學探索與古代巫術交匯之處。作為中國最早完全由AI數位人支持的電影之一,該劇在籌備階段便引發了業界熱烈討論,而關於其A
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
相關專題推薦
評論 (27)
0/500
Interesting approach! Using Minecraft for AI benchmarking sounds way more engaging than standard tests. Wonder if this could lead to AI that actually helps design game worlds? The student's project is a cool example of how gaming and AI research can mix. Hope they share the results! 🎮
高校生がAI建築チャレンジのサイトを作ったのか…!Minecraftの世界でAIの創造性を測るってアイデア、すごく面白いな。でも、これって結局マイクロソフトのプロモーションみたいなものじゃないの?AIがどんどんゲーム内に溶け込んでいくの、ちょっと怖い気もする😅 未来のゲームはすべてAIが作っちゃうのかな?
É sempre incrível ver jovens inovando com IA! Alguém já testou se esses desafios do Minecraft realmente conseguem medir bem a criatividade dos modelos? Ou será que é só mais uma moda passageira? 😅
这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果
使用Minecraft進行創意AI基準測試
隨著傳統AI基準測試方法的不足,開發者們正探索創新的方式來評估生成式AI模型的能力。其中一種創意方法是使用Minecraft,這款由Microsoft擁有的熱門沙盒遊戲。一群開發者推出了Minecraft Benchmark,或稱MC-Bench,這是一個讓AI模型根據給定提示競爭創建Minecraft建築的平台。
在MC-Bench上,使用者可以投票選擇他們偏好的AI模型創作,且只有在投票後才會得知每件建築是由哪個模型製作的。這種互動方式不僅吸引了社群參與,還提供了一種獨特的方式來評估AI的能力。

Adi Singh,一位12年級學生,也是MC-Bench的發起人,認為Minecraft的廣泛知名度是關鍵。作為有史以來最暢銷的電子遊戲,許多人都對它很熟悉,這使得人們即使沒有親自玩過遊戲,也能更容易判斷AI生成建築的品質。Singh向TechCrunch解釋說:「Minecraft讓人們更容易看到[AI發展]的進展。」他補充道:「人們習慣了Minecraft的風格和氛圍。」
MC-Bench由八名志願者組成的團隊支持。像Anthropic、Google、OpenAI和Alibaba這樣的企業提供了他們的產品來運行基準測試提示,但他們並未以其他方式參與該項目。
Singh設想將MC-Bench擴展到超越簡單建築,朝著更複雜、以目標為導向的任務發展。他說:「遊戲可能只是一種測試代理推理的媒介,相較於現實生活更安全,且更可控,適合測試用途,這在我看來更為理想。」
其他遊戲作為AI基準
除了Minecraft,其他遊戲如Pokémon Red、Street Fighter和Pictionary也已被用作AI的實驗性基準。AI基準測試的挑戰在於其複雜性,因為傳統的標準化測試往往偏向AI模型,這是由於它們的訓練方式在狹窄的問題解決領域(如機械記憶或基本推斷)中表現出色。
例如,OpenAI的GPT-4在LSAT考試中能達到88百分位的成績,但在像計算「strawberry」中R的數量這樣較簡單的任務上卻表現不佳。同樣,Anthropic的Claude 3.7 Sonnet在軟體工程基準測試中達到62.3%的準確率,但在玩Pokémon時的表現卻不如大多數五歲的孩子。

MC-Bench:不僅僅是程式設計基準
從技術上講,MC-Bench是一個程式設計基準,因為它要求AI模型撰寫程式碼來創建像「雪人Frosty」或「原始沙灘上的迷人熱帶小屋」這樣的建築。然而,這個平台的吸引力在於其可及性。使用者評估建築的視覺品質比分析程式碼更容易,這擴大了項目的影響力和收集模型性能數據的潛力。
關於這些分數是否真正反映AI實用性的爭論仍在繼續。然而,Singh認為它們是一個強有力的指標。他說:「目前的排行榜與我使用這些模型的個人經驗相當吻合,這與許多純文字基準不同。」他補充道:「也許[MC-Bench]對企業來說有助於了解他們是否朝著正確的方向前進。」
耀科傳媒首部AIGC劇集《秦嶺青銅之謎》今日上線,主演均由AI選角
今日,耀科傳媒的AIGC奇幻懸疑短劇《秦嶺青銅秘事》正式上線。本劇由該公司首批簽約的兩位AI演員秦凌月與林西妍主演,故事背景設定在神秘莫測的秦嶺礦區。 劇情追隨退休情報官秦月帶領團隊深入該區域,揭開一樁塵封已久的礦難,以及跨越兩代人的血祭真相——這份真相就隱藏在受限的地下區域,正是科學探索與古代巫術交匯之處。作為中國最早完全由AI數位人支持的電影之一,該劇在籌備階段便引發了業界熱烈討論,而關於其A
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Interesting approach! Using Minecraft for AI benchmarking sounds way more engaging than standard tests. Wonder if this could lead to AI that actually helps design game worlds? The student's project is a cool example of how gaming and AI research can mix. Hope they share the results! 🎮
高校生がAI建築チャレンジのサイトを作ったのか…!Minecraftの世界でAIの創造性を測るってアイデア、すごく面白いな。でも、これって結局マイクロソフトのプロモーションみたいなものじゃないの?AIがどんどんゲーム内に溶け込んでいくの、ちょっと怖い気もする😅 未来のゲームはすべてAIが作っちゃうのかな?
É sempre incrível ver jovens inovando com IA! Alguém já testou se esses desafios do Minecraft realmente conseguem medir bem a criatividade dos modelos? Ou será que é só mais uma moda passageira? 😅
这个高中生用Minecraft来测试AI生成建筑也太有创意了吧!😂 传统AI评测标准太死板了,确实需要这种更直观有趣的方式。不过我很好奇评判标准是什么,是美观度还是还原度?也想试试看用我的世界来测试Stable Diffusion效果





首頁






