Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon
Ngày 03 tháng 5 năm 2025
JonathanDavis
0

Ngay cả thế giới yêu quý của Pokémon cũng không miễn nhiễm với bộ phim xung quanh điểm chuẩn của AI. Một bài đăng lan truyền gần đây trên X đã khuấy động khá buzz, tuyên bố rằng mô hình Song Tử mới nhất của Google đã vượt xa mô hình Claude hàng đầu của Anthropic trong bộ ba trò chơi video Pokémon cổ điển. Theo The Post, Song Tử đã ấn tượng đến thị trấn hoa oải hương trong dòng co giật của nhà phát triển, trong khi Claude bị tụt lại phía sau tại Mount Moon vào cuối tháng Hai.
Song Tử theo nghĩa đen đi trước Claude atm ở Pokemon sau khi đến thị trấn hoa oải hương
119 lượt xem trực tiếp chỉ btw, stream pic được đánh giá thấp đến mức đáng kinh ngạc.twitter.com/8avsovai4x
- Jush (@jush21e8) ngày 10 tháng 4 năm 2025
Tuy nhiên, những gì bài đăng này thuận tiện bị bỏ rơi là thực tế rằng Gemini có một chút lợi thế không công bằng. Người dùng hiểu biết trên Reddit đã nhanh chóng chỉ ra rằng nhà phát triển đằng sau luồng Gemini đã tạo ra một Minimap tùy chỉnh. Công cụ tiện lợi này hỗ trợ mô hình trong việc nhận ra "gạch" trong trò chơi, chẳng hạn như cây có thể cắt, giúp giảm đáng kể thời gian Song Tử cần phải dành để phân tích ảnh chụp màn hình trước khi quyết định bước tiếp theo của nó.
Bây giờ, trong khi Pokémon có thể không phải là điểm chuẩn AI nghiêm trọng nhất hiện có, nhưng nó đóng vai trò là một ví dụ thú vị nhưng nói về cách các thiết lập khác nhau có thể làm lệch kết quả của các thử nghiệm này. Ví dụ, lấy mô hình gần đây của Anthropic, Anthropic 3.7 Sonnet. Trên điểm chuẩn được xác minh trên băng ghế, có nghĩa là để kiểm tra năng lực mã hóa, nó đạt độ chính xác 62,3%. Nhưng, với một "giàn giáo tùy chỉnh" mà nhân học đã đánh bại, điểm số đó đã tăng lên 70,3%.
Và nó không dừng lại ở đó. Meta đã lấy một trong những mẫu xe mới hơn của mình, Llama 4 Maverick và tinh chỉnh nó đặc biệt cho điểm chuẩn LM Arena. Phiên bản vani của mô hình không có giá trị gần như trong cùng một thử nghiệm.
Cho rằng các điểm chuẩn của AI, bao gồm ví dụ Pokémon thân thiện của chúng tôi, đã có một chút khó chịu, những điều chỉnh tùy chỉnh và cách tiếp cận không chuẩn này chỉ khiến cho việc đưa ra các so sánh có ý nghĩa hơn giữa các mô hình khi chúng được tung ra thị trường. Có vẻ như so sánh táo với táo có thể trở nên khó khăn hơn vào ban ngày.
Bài viết liên quan
Top 10 AI Marketing Tools for April 2025
Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers
Wikipedia's New Strategy to Manage AI Data Scraping
Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance
Huawei's Bold Move in the Global AI Chip Race
Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
Nhận xét (0)
0/200






Ngay cả thế giới yêu quý của Pokémon cũng không miễn nhiễm với bộ phim xung quanh điểm chuẩn của AI. Một bài đăng lan truyền gần đây trên X đã khuấy động khá buzz, tuyên bố rằng mô hình Song Tử mới nhất của Google đã vượt xa mô hình Claude hàng đầu của Anthropic trong bộ ba trò chơi video Pokémon cổ điển. Theo The Post, Song Tử đã ấn tượng đến thị trấn hoa oải hương trong dòng co giật của nhà phát triển, trong khi Claude bị tụt lại phía sau tại Mount Moon vào cuối tháng Hai.
Song Tử theo nghĩa đen đi trước Claude atm ở Pokemon sau khi đến thị trấn hoa oải hương
119 lượt xem trực tiếp chỉ btw, stream pic được đánh giá thấp đến mức đáng kinh ngạc.twitter.com/8avsovai4x
- Jush (@jush21e8) ngày 10 tháng 4 năm 2025
Tuy nhiên, những gì bài đăng này thuận tiện bị bỏ rơi là thực tế rằng Gemini có một chút lợi thế không công bằng. Người dùng hiểu biết trên Reddit đã nhanh chóng chỉ ra rằng nhà phát triển đằng sau luồng Gemini đã tạo ra một Minimap tùy chỉnh. Công cụ tiện lợi này hỗ trợ mô hình trong việc nhận ra "gạch" trong trò chơi, chẳng hạn như cây có thể cắt, giúp giảm đáng kể thời gian Song Tử cần phải dành để phân tích ảnh chụp màn hình trước khi quyết định bước tiếp theo của nó.
Bây giờ, trong khi Pokémon có thể không phải là điểm chuẩn AI nghiêm trọng nhất hiện có, nhưng nó đóng vai trò là một ví dụ thú vị nhưng nói về cách các thiết lập khác nhau có thể làm lệch kết quả của các thử nghiệm này. Ví dụ, lấy mô hình gần đây của Anthropic, Anthropic 3.7 Sonnet. Trên điểm chuẩn được xác minh trên băng ghế, có nghĩa là để kiểm tra năng lực mã hóa, nó đạt độ chính xác 62,3%. Nhưng, với một "giàn giáo tùy chỉnh" mà nhân học đã đánh bại, điểm số đó đã tăng lên 70,3%.
Và nó không dừng lại ở đó. Meta đã lấy một trong những mẫu xe mới hơn của mình, Llama 4 Maverick và tinh chỉnh nó đặc biệt cho điểm chuẩn LM Arena. Phiên bản vani của mô hình không có giá trị gần như trong cùng một thử nghiệm.
Cho rằng các điểm chuẩn của AI, bao gồm ví dụ Pokémon thân thiện của chúng tôi, đã có một chút khó chịu, những điều chỉnh tùy chỉnh và cách tiếp cận không chuẩn này chỉ khiến cho việc đưa ra các so sánh có ý nghĩa hơn giữa các mô hình khi chúng được tung ra thị trường. Có vẻ như so sánh táo với táo có thể trở nên khó khăn hơn vào ban ngày.











