lựa chọn
Trang chủ
Tin tức
Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon

Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon

Ngày 03 tháng 5 năm 2025
89

Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon

Ngay cả thế giới yêu quý của Pokémon cũng không miễn nhiễm với bộ phim xung quanh điểm chuẩn của AI. Một bài đăng lan truyền gần đây trên X đã khuấy động khá buzz, tuyên bố rằng mô hình Song Tử mới nhất của Google đã vượt xa mô hình Claude hàng đầu của Anthropic trong bộ ba trò chơi video Pokémon cổ điển. Theo The Post, Song Tử đã ấn tượng đến thị trấn hoa oải hương trong dòng co giật của nhà phát triển, trong khi Claude bị tụt lại phía sau tại Mount Moon vào cuối tháng Hai.

Song Tử theo nghĩa đen đi trước Claude atm ở Pokemon sau khi đến thị trấn hoa oải hương

119 lượt xem trực tiếp chỉ btw, stream pic được đánh giá thấp đến mức đáng kinh ngạc.twitter.com/8avsovai4x

- Jush (@jush21e8) ngày 10 tháng 4 năm 2025

Tuy nhiên, những gì bài đăng này thuận tiện bị bỏ rơi là thực tế rằng Gemini có một chút lợi thế không công bằng. Người dùng hiểu biết trên Reddit đã nhanh chóng chỉ ra rằng nhà phát triển đằng sau luồng Gemini đã tạo ra một Minimap tùy chỉnh. Công cụ tiện lợi này hỗ trợ mô hình trong việc nhận ra "gạch" trong trò chơi, chẳng hạn như cây có thể cắt, giúp giảm đáng kể thời gian Song Tử cần phải dành để phân tích ảnh chụp màn hình trước khi quyết định bước tiếp theo của nó.

Bây giờ, trong khi Pokémon có thể không phải là điểm chuẩn AI nghiêm trọng nhất hiện có, nhưng nó đóng vai trò là một ví dụ thú vị nhưng nói về cách các thiết lập khác nhau có thể làm lệch kết quả của các thử nghiệm này. Ví dụ, lấy mô hình gần đây của Anthropic, Anthropic 3.7 Sonnet. Trên điểm chuẩn được xác minh trên băng ghế, có nghĩa là để kiểm tra năng lực mã hóa, nó đạt độ chính xác 62,3%. Nhưng, với một "giàn giáo tùy chỉnh" mà nhân học đã đánh bại, điểm số đó đã tăng lên 70,3%.

Và nó không dừng lại ở đó. Meta đã lấy một trong những mẫu xe mới hơn của mình, Llama 4 Maverick và tinh chỉnh nó đặc biệt cho điểm chuẩn LM Arena. Phiên bản vani của mô hình không có giá trị gần như trong cùng một thử nghiệm.

Cho rằng các điểm chuẩn của AI, bao gồm ví dụ Pokémon thân thiện của chúng tôi, đã có một chút khó chịu, những điều chỉnh tùy chỉnh và cách tiếp cận không chuẩn này chỉ khiến cho việc đưa ra các so sánh có ý nghĩa hơn giữa các mô hình khi chúng được tung ra thị trường. Có vẻ như so sánh táo với táo có thể trở nên khó khăn hơn vào ban ngày.

Bài viết liên quan
xAI đăng các lời nhắc hậu trường của Grok xAI đăng các lời nhắc hậu trường của Grok xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
Nhận xét (5)
0/200
JasonKing
JasonKing 00:00:00 GMT Ngày 05 tháng 5 năm 2025

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 00:00:00 GMT Ngày 05 tháng 5 năm 2025

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

AlbertThomas
AlbertThomas 00:00:00 GMT Ngày 04 tháng 5 năm 2025

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 00:00:00 GMT Ngày 04 tháng 5 năm 2025

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

WalterThomas
WalterThomas 00:00:00 GMT Ngày 04 tháng 5 năm 2025

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

Quay lại đầu
OR