Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon

Trang chủ

Tin tức

Ngày 03 tháng 5 năm 2025

JonathanDavis

# ai # pokemon

Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon

Ngay cả thế giới yêu quý của Pokémon cũng không miễn nhiễm với bộ phim xung quanh điểm chuẩn của AI. Một bài đăng lan truyền gần đây trên X đã khuấy động khá buzz, tuyên bố rằng mô hình Song Tử mới nhất của Google đã vượt xa mô hình Claude hàng đầu của Anthropic trong bộ ba trò chơi video Pokémon cổ điển. Theo The Post, Song Tử đã ấn tượng đến thị trấn hoa oải hương trong dòng co giật của nhà phát triển, trong khi Claude bị tụt lại phía sau tại Mount Moon vào cuối tháng Hai.

Song Tử theo nghĩa đen đi trước Claude atm ở Pokemon sau khi đến thị trấn hoa oải hương
119 lượt xem trực tiếp chỉ btw, stream pic được đánh giá thấp đến mức đáng kinh ngạc.twitter.com/8avsovai4x
- Jush (@jush21e8) ngày 10 tháng 4 năm 2025

Tuy nhiên, những gì bài đăng này thuận tiện bị bỏ rơi là thực tế rằng Gemini có một chút lợi thế không công bằng. Người dùng hiểu biết trên Reddit đã nhanh chóng chỉ ra rằng nhà phát triển đằng sau luồng Gemini đã tạo ra một Minimap tùy chỉnh. Công cụ tiện lợi này hỗ trợ mô hình trong việc nhận ra "gạch" trong trò chơi, chẳng hạn như cây có thể cắt, giúp giảm đáng kể thời gian Song Tử cần phải dành để phân tích ảnh chụp màn hình trước khi quyết định bước tiếp theo của nó.

Bây giờ, trong khi Pokémon có thể không phải là điểm chuẩn AI nghiêm trọng nhất hiện có, nhưng nó đóng vai trò là một ví dụ thú vị nhưng nói về cách các thiết lập khác nhau có thể làm lệch kết quả của các thử nghiệm này. Ví dụ, lấy mô hình gần đây của Anthropic, Anthropic 3.7 Sonnet. Trên điểm chuẩn được xác minh trên băng ghế, có nghĩa là để kiểm tra năng lực mã hóa, nó đạt độ chính xác 62,3%. Nhưng, với một "giàn giáo tùy chỉnh" mà nhân học đã đánh bại, điểm số đó đã tăng lên 70,3%.

Và nó không dừng lại ở đó. Meta đã lấy một trong những mẫu xe mới hơn của mình, Llama 4 Maverick và tinh chỉnh nó đặc biệt cho điểm chuẩn LM Arena. Phiên bản vani của mô hình không có giá trị gần như trong cùng một thử nghiệm.

Cho rằng các điểm chuẩn của AI, bao gồm ví dụ Pokémon thân thiện của chúng tôi, đã có một chút khó chịu, những điều chỉnh tùy chỉnh và cách tiếp cận không chuẩn này chỉ khiến cho việc đưa ra các so sánh có ý nghĩa hơn giữa các mô hình khi chúng được tung ra thị trường. Có vẻ như so sánh táo với táo có thể trở nên khó khăn hơn vào ban ngày.

Bài viết liên quan

xAI đăng các lời nhắc hậu trường của Grok xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự

Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ

Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh

Nhận xét (5)

0/200

Nộp

JasonKing

00:00:00 GMT Ngày 05 tháng 5 năm 2025

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams

00:00:00 GMT Ngày 05 tháng 5 năm 2025

ポケモンでAIのベンチマークを議論するなんて、信じられない！AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない？🤯

AlbertThomas

00:00:00 GMT Ngày 04 tháng 5 năm 2025

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts

00:00:00 GMT Ngày 04 tháng 5 năm 2025

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

WalterThomas

00:00:00 GMT Ngày 04 tháng 5 năm 2025

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

Tin tức hàng đầu

Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Trải nghiệm ô chữ I/O do AI hỗ trợ Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Notebooklm thêm tính năng Discovery nguồn Web Adobe tiết lộ 10 đại lý AI chuyên dụng: Khám phá các ứng dụng kinh doanh của họ Hàn Quốc dừng tải xuống ứng dụng DeepSeek trong các cửa hàng địa phương

Hơn

Đặc trưng