Học sinh trung học tạo trang web cho các thử thách xây dựng AI Minecraft
Đánh giá AI sáng tạo với Minecraft
Khi các phương pháp đánh giá AI truyền thống không còn đủ, các nhà phát triển đang khám phá những cách tiếp cận sáng tạo để đánh giá khả năng của các mô hình AI tạo sinh. Một phương pháp sáng tạo như vậy liên quan đến việc sử dụng Minecraft, trò chơi sandbox nổi tiếng thuộc sở hữu của Microsoft. Một nhóm nhà phát triển đã ra mắt Minecraft Benchmark, hay MC-Bench, một nền tảng nơi các mô hình AI cạnh tranh trong việc tạo ra các công trình Minecraft dựa trên các gợi ý được đưa ra.
Trên MC-Bench, người dùng có thể bỏ phiếu cho công trình của mô hình AI nào họ thích hơn, và chỉ sau khi bỏ phiếu, họ mới biết mô hình nào đã tạo ra mỗi công trình. Cách tiếp cận tương tác này không chỉ thu hút cộng đồng mà còn cung cấp một cách độc đáo để đánh giá khả năng của AI.

Nguồn hình ảnh: Minecraft Benchmark Adi Singh, một học sinh lớp 12 và người khởi xướng MC-Bench, tin rằng sự phổ biến rộng rãi của Minecraft là yếu tố then chốt. Là trò chơi video bán chạy nhất từ trước đến nay, nó quen thuộc với nhiều người, giúp mọi người dễ dàng đánh giá chất lượng của các công trình do AI tạo ra, ngay cả khi họ chưa từng chơi trò chơi này. "Minecraft cho phép mọi người thấy được tiến bộ [của phát triển AI] dễ dàng hơn nhiều," Singh giải thích với TechCrunch. "Mọi người đã quen với Minecraft, quen với giao diện và cảm giác của nó."
MC-Bench được hỗ trợ bởi một đội gồm tám tình nguyện viên đóng góp. Các công ty như Anthropic, Google, OpenAI và Alibaba đã cung cấp sản phẩm của họ để chạy các gợi ý đánh giá, mặc dù họ không tham gia vào dự án theo cách khác.
Singh hình dung việc mở rộng MC-Bench vượt ra ngoài các công trình đơn giản để thực hiện các nhiệm vụ phức tạp hơn, định hướng mục tiêu. "Các trò chơi có thể chỉ là một phương tiện để kiểm tra lý luận agentic an toàn hơn so với đời thực và dễ kiểm soát hơn cho mục đích thử nghiệm, khiến nó trở nên lý tưởng hơn trong mắt tôi," anh nói.
Các trò chơi khác làm chuẩn mực AI
Bên cạnh Minecraft, các trò chơi khác như Pokémon Red, Street Fighter và Pictionary đã được sử dụng làm chuẩn mực thử nghiệm cho AI. Thách thức trong việc đánh giá AI nằm ở sự phức tạp của nó, vì các bài kiểm tra tiêu chuẩn truyền thống thường ưu ái các mô hình AI do phương pháp huấn luyện của chúng, vốn xuất sắc trong các lĩnh vực giải quyết vấn đề hẹp như ghi nhớ máy móc hoặc suy luận cơ bản.
Chẳng hạn, trong khi GPT-4 của OpenAI có thể đạt điểm ở phân vị thứ 88 trên LSAT, nó gặp khó khăn với các nhiệm vụ đơn giản hơn như đếm số chữ R trong "strawberry". Tương tự, Claude 3.7 Sonnet của Anthropic đạt độ chính xác 62,3% trên một chuẩn mực kỹ thuật phần mềm nhưng lại không thể chơi Pokémon tốt bằng hầu hết trẻ năm tuổi.

Nguồn hình ảnh: Minecraft Benchmark MC-Bench: Hơn cả một chuẩn mực lập trình
Về mặt kỹ thuật, MC-Bench là một chuẩn mực lập trình vì nó yêu cầu các mô hình AI viết mã để tạo ra các công trình như "Frosty the Snowman" hoặc "một túp lều bãi biển nhiệt đới quyến rũ trên bờ cát nguyên sơ." Tuy nhiên, sức hút của nền tảng nằm ở tính dễ tiếp cận. Người dùng dễ dàng đánh giá chất lượng hình ảnh của một công trình hơn là phân tích mã, điều này mở rộng phạm vi của dự án và tiềm năng thu thập dữ liệu về hiệu suất mô hình.
Cuộc tranh luận vẫn tiếp diễn về việc liệu các điểm số này có thực sự phản ánh tính hữu ích của AI hay không. Tuy nhiên, Singh tin rằng chúng là một chỉ báo mạnh mẽ. "Bảng xếp hạng hiện tại phản ánh khá sát với trải nghiệm của tôi khi sử dụng các mô hình này, điều này không giống như nhiều chuẩn mực thuần văn bản," anh nói. "Có lẽ [MC-Bench] có thể hữu ích cho các công ty để biết liệu họ có đang đi đúng hướng hay không."
Bài viết liên quan
Amazon Ra Mắt Alexa+ Nâng Cấp với Khả Năng AI Tiên Tiến
Tại sự kiện ở New York vào thứ Tư, Amazon đã giới thiệu trải nghiệm Alexa+ nâng cấp, được hỗ trợ bởi công nghệ AI tạo sinh tiên tiến. Panos Panay, giám đốc bộ phận thiết bị và dịch vụ của Amazon, mô t
Hướng dẫn Tạo Video Câu chuyện Trò chuyện Lan tỏa với Công cụ AI vào năm 2025
Trong lĩnh vực năng động của mạng xã hội, việc tạo ra nội dung hấp dẫn là điều cần thiết để thu hút sự chú ý của khán giả và xây dựng sự hiện diện trực tuyến mạnh mẽ. Video câu chuyện trò chuyện đã tr
Google Cam Kết Với Quy Tắc Thực Hành AI của EU Giữa Lúc Ngành Công Nghiệp Thảo Luận
Google đã cam kết áp dụng quy tắc thực hành AI tự nguyện của Liên minh Châu Âu, một khung công tác được thiết kế để hỗ trợ các nhà phát triển AI tuân thủ Đạo luật AI của EU bằng cách triển khai các qu
Nhận xét (21)
0/200
BenGarcía
13:01:00 GMT+07:00 Ngày 04 tháng 8 năm 2025
This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰
0
GregoryJones
04:02:52 GMT+07:00 Ngày 21 tháng 4 năm 2025
マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲
0
JonathanKing
15:42:35 GMT+07:00 Ngày 20 tháng 4 năm 2025
¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄
0
RalphHill
10:41:36 GMT+07:00 Ngày 20 tháng 4 năm 2025
Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊
0
CharlesThomas
05:49:16 GMT+07:00 Ngày 20 tháng 4 năm 2025
マインクラフトを使ったAIのベンチマーク、面白いですね!ゲームがAIのテストに使われるなんて、まるでAI同士が仮想世界で競っているみたい。ただ、時々ビルドがシンプルすぎるのが残念。でも全体的に素晴らしいアイデアだと思います!👍
0
KennethLee
04:58:54 GMT+07:00 Ngày 20 tháng 4 năm 2025
This high school student's Minecraft AI challenge website is super cool! It's a fun way to see how AI can build stuff in Minecraft. The only thing is, sometimes the challenges are too hard for beginners. Still, it's a great project and I can't wait to see what comes next! 🎮
0
Đánh giá AI sáng tạo với Minecraft
Khi các phương pháp đánh giá AI truyền thống không còn đủ, các nhà phát triển đang khám phá những cách tiếp cận sáng tạo để đánh giá khả năng của các mô hình AI tạo sinh. Một phương pháp sáng tạo như vậy liên quan đến việc sử dụng Minecraft, trò chơi sandbox nổi tiếng thuộc sở hữu của Microsoft. Một nhóm nhà phát triển đã ra mắt Minecraft Benchmark, hay MC-Bench, một nền tảng nơi các mô hình AI cạnh tranh trong việc tạo ra các công trình Minecraft dựa trên các gợi ý được đưa ra.
Trên MC-Bench, người dùng có thể bỏ phiếu cho công trình của mô hình AI nào họ thích hơn, và chỉ sau khi bỏ phiếu, họ mới biết mô hình nào đã tạo ra mỗi công trình. Cách tiếp cận tương tác này không chỉ thu hút cộng đồng mà còn cung cấp một cách độc đáo để đánh giá khả năng của AI.
Adi Singh, một học sinh lớp 12 và người khởi xướng MC-Bench, tin rằng sự phổ biến rộng rãi của Minecraft là yếu tố then chốt. Là trò chơi video bán chạy nhất từ trước đến nay, nó quen thuộc với nhiều người, giúp mọi người dễ dàng đánh giá chất lượng của các công trình do AI tạo ra, ngay cả khi họ chưa từng chơi trò chơi này. "Minecraft cho phép mọi người thấy được tiến bộ [của phát triển AI] dễ dàng hơn nhiều," Singh giải thích với TechCrunch. "Mọi người đã quen với Minecraft, quen với giao diện và cảm giác của nó."
MC-Bench được hỗ trợ bởi một đội gồm tám tình nguyện viên đóng góp. Các công ty như Anthropic, Google, OpenAI và Alibaba đã cung cấp sản phẩm của họ để chạy các gợi ý đánh giá, mặc dù họ không tham gia vào dự án theo cách khác.
Singh hình dung việc mở rộng MC-Bench vượt ra ngoài các công trình đơn giản để thực hiện các nhiệm vụ phức tạp hơn, định hướng mục tiêu. "Các trò chơi có thể chỉ là một phương tiện để kiểm tra lý luận agentic an toàn hơn so với đời thực và dễ kiểm soát hơn cho mục đích thử nghiệm, khiến nó trở nên lý tưởng hơn trong mắt tôi," anh nói.
Các trò chơi khác làm chuẩn mực AI
Bên cạnh Minecraft, các trò chơi khác như Pokémon Red, Street Fighter và Pictionary đã được sử dụng làm chuẩn mực thử nghiệm cho AI. Thách thức trong việc đánh giá AI nằm ở sự phức tạp của nó, vì các bài kiểm tra tiêu chuẩn truyền thống thường ưu ái các mô hình AI do phương pháp huấn luyện của chúng, vốn xuất sắc trong các lĩnh vực giải quyết vấn đề hẹp như ghi nhớ máy móc hoặc suy luận cơ bản.
Chẳng hạn, trong khi GPT-4 của OpenAI có thể đạt điểm ở phân vị thứ 88 trên LSAT, nó gặp khó khăn với các nhiệm vụ đơn giản hơn như đếm số chữ R trong "strawberry". Tương tự, Claude 3.7 Sonnet của Anthropic đạt độ chính xác 62,3% trên một chuẩn mực kỹ thuật phần mềm nhưng lại không thể chơi Pokémon tốt bằng hầu hết trẻ năm tuổi.
MC-Bench: Hơn cả một chuẩn mực lập trình
Về mặt kỹ thuật, MC-Bench là một chuẩn mực lập trình vì nó yêu cầu các mô hình AI viết mã để tạo ra các công trình như "Frosty the Snowman" hoặc "một túp lều bãi biển nhiệt đới quyến rũ trên bờ cát nguyên sơ." Tuy nhiên, sức hút của nền tảng nằm ở tính dễ tiếp cận. Người dùng dễ dàng đánh giá chất lượng hình ảnh của một công trình hơn là phân tích mã, điều này mở rộng phạm vi của dự án và tiềm năng thu thập dữ liệu về hiệu suất mô hình.
Cuộc tranh luận vẫn tiếp diễn về việc liệu các điểm số này có thực sự phản ánh tính hữu ích của AI hay không. Tuy nhiên, Singh tin rằng chúng là một chỉ báo mạnh mẽ. "Bảng xếp hạng hiện tại phản ánh khá sát với trải nghiệm của tôi khi sử dụng các mô hình này, điều này không giống như nhiều chuẩn mực thuần văn bản," anh nói. "Có lẽ [MC-Bench] có thể hữu ích cho các công ty để biết liệu họ có đang đi đúng hướng hay không."




This high school kid building an AI Minecraft challenge site is wild! 🤯 I love how Minecraft’s open world is being used to test AI creativity. Wonder if we’ll see AI build epic castles or just glitchy dirt huts? 🏰




マインクラフトでAIの性能を評価するなんて面白いアイデアだね!ただ、AIの建築物が時々変な感じになるのが残念。でも全体的に見て、すごいと思うよ!高校生が作ったなんて信じられない!😲




¡Usar Minecraft para evaluar AI es una idea genial! Es como ver a los modelos de AI compitiendo en un mundo virtual. Lo único malo es que a veces las construcciones son demasiado simples, pero en general es fantástico. ¡Sigan así! 😄




Usar o Minecraft para testar AI é uma ideia incrível! Parece que estamos assistindo a uma competição de AI em um mundo virtual. A única coisa ruim é que às vezes as construções são muito simples, mas no geral é fantástico! Continuem o bom trabalho! 😊




マインクラフトを使ったAIのベンチマーク、面白いですね!ゲームがAIのテストに使われるなんて、まるでAI同士が仮想世界で競っているみたい。ただ、時々ビルドがシンプルすぎるのが残念。でも全体的に素晴らしいアイデアだと思います!👍




This high school student's Minecraft AI challenge website is super cool! It's a fun way to see how AI can build stuff in Minecraft. The only thing is, sometimes the challenges are too hard for beginners. Still, it's a great project and I can't wait to see what comes next! 🎮












