Pokémon đã sử dụng nhân học để đánh giá mô hình AI mới nhất của nó
Ngày 10 tháng 4 năm 2025
AvaHill
41
Trong một động thái đáng ngạc nhiên, Anthropic đã quyết định đưa mô hình AI mới nhất của mình, Claude 3.7 Sonnet, vào thử nghiệm với trò chơi Game Boy cổ điển, Pokémon Red. Theo một bài đăng trên blog được phát hành vào thứ Hai, công ty đã đưa ra mô hình với các yếu tố cần thiết: bộ nhớ, khả năng đọc các pixel màn hình và sức mạnh để nhấn nút và di chuyển xung quanh màn hình trò chơi. Thiết lập này cho phép Claude 3.7 Sonnet đi sâu vào thế giới của Pokémon và tiếp tục chơi.
Điều khiến Claude 3.7 Sonnet khác biệt là sở trường của nó cho "suy nghĩ mở rộng". Tương tự như các mô hình khác như O3-Mini của Openai và R1 của Deepseek, nó có thể giải quyết các vấn đề khó khăn bằng cách tăng sức mạnh tính toán và dành thời gian ngọt ngào để suy nghĩ mọi thứ.
Tính năng này được chứng minh là một người thay đổi trò chơi trong Pokémon Red. Trong khi Sonnet Claude 3.0 cũ hơn thậm chí không thể ra khỏi khu vực bắt đầu ở Pallet Town, Claude 3.7 Sonnet đã xoay sở để hạ gục ba nhà lãnh đạo phòng tập thể dục và lấy huy hiệu của họ.

Tín dụng hình ảnh: Nhân học Bây giờ, Anthropic đã không làm đổ đậu vào chính xác mức độ cần thiết của điện toán hoặc mất bao lâu để Claude 3.7 Sonnet đạt được các cột mốc này. Họ chỉ đề cập rằng mô hình đã thực hiện 35.000 hành động để đối đầu với người lãnh đạo phòng tập thể dục cuối cùng, Surge.
Tuần trước, một nhà nghiên cứu đã thử xem trước sớm của Claude 3.7 Sonnet.
Các kết quả rất nổi bật. Trong vài giờ, Claude đánh bại Brock. Vài ngày sau, nó bị sương mù. Tiến bộ mà các mô hình cũ có rất ít hy vọng đạt được.
Hóa ra suy nghĩ mở rộng là siêu hiệu quả. pic.twitter.com/rspslgj2uf
- Nhân chủng học (@anthropicai) ngày 25 tháng 2 năm 2025
Sẽ không lâu nữa trước khi một số nhà phát triển thông minh tìm ra các chi tiết nitty-gritty.
Mặc dù Pokémon Red có vẻ như là một bài kiểm tra thú vị, các trò chơi thực sự đã được sử dụng cho điểm chuẩn AI cho nhiều năm. Chỉ trong vài tháng qua, chúng tôi đã thấy một loạt các ứng dụng và nền tảng mới xuất hiện để kiểm tra các mô hình AI có thể chơi mọi thứ tốt như thế nào từ Street Fighter đến Pictionary.
Bài viết liên quan
Debates over AI benchmarking have reached Pokémon
Even the beloved world of Pokémon isn't immune to the drama surrounding AI benchmarks. A recent viral post on X stirred up quite the buzz, claiming that Google's latest Gemini model had outpaced Anthropic's leading Claude model in the classic Pokémon video game trilogy. According to the post, Gemini
Bản sao quảng cáo Facebook do AI điều khiển: Tạo quảng cáo nhanh chóng
Cuộc cách mạng của AI trong việc chế tạo quảng cáo Facebook hấp dẫn sao chép thế giới xoáy nước của tiếp thị kỹ thuật số, khả năng thu hút bản sao quảng cáo Facebook hấp dẫn nhanh chóng không có gì cần thiết. Nhập Trí tuệ nhân tạo (AI), một người thay đổi trò chơi đang định hình lại cách chúng ta tiếp cận sáng tạo quảng cáo. Hướng dẫn này d
Máy phát Rubric AI: Đánh giá hợp lý với việc giảng dạy nhanh
Trong thế giới năng động của giáo dục, giáo viên luôn tìm kiếm các công cụ có thể đơn giản hóa công việc của họ trong khi tăng cường học tập của học sinh. Nhập trình tạo AI Rubric của Dạy học Brisk, một người thay đổi trò chơi trong lĩnh vực đánh giá. Công cụ tiện lợi này giúp các nhà giáo dục tạo ra những chú ý cá nhân hóa trong một snap, en
Nhận xét (15)
0/200
GeorgeWilliams
17:22:08 GMT Ngày 11 tháng 4 năm 2025
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
03:40:24 GMT Ngày 12 tháng 4 năm 2025
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
05:05:35 GMT Ngày 13 tháng 4 năm 2025
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
22:24:40 GMT Ngày 14 tháng 4 năm 2025
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
19:59:47 GMT Ngày 14 tháng 4 năm 2025
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
04:11:07 GMT Ngày 12 tháng 4 năm 2025
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0






Trong một động thái đáng ngạc nhiên, Anthropic đã quyết định đưa mô hình AI mới nhất của mình, Claude 3.7 Sonnet, vào thử nghiệm với trò chơi Game Boy cổ điển, Pokémon Red. Theo một bài đăng trên blog được phát hành vào thứ Hai, công ty đã đưa ra mô hình với các yếu tố cần thiết: bộ nhớ, khả năng đọc các pixel màn hình và sức mạnh để nhấn nút và di chuyển xung quanh màn hình trò chơi. Thiết lập này cho phép Claude 3.7 Sonnet đi sâu vào thế giới của Pokémon và tiếp tục chơi.
Điều khiến Claude 3.7 Sonnet khác biệt là sở trường của nó cho "suy nghĩ mở rộng". Tương tự như các mô hình khác như O3-Mini của Openai và R1 của Deepseek, nó có thể giải quyết các vấn đề khó khăn bằng cách tăng sức mạnh tính toán và dành thời gian ngọt ngào để suy nghĩ mọi thứ.
Tính năng này được chứng minh là một người thay đổi trò chơi trong Pokémon Red. Trong khi Sonnet Claude 3.0 cũ hơn thậm chí không thể ra khỏi khu vực bắt đầu ở Pallet Town, Claude 3.7 Sonnet đã xoay sở để hạ gục ba nhà lãnh đạo phòng tập thể dục và lấy huy hiệu của họ.
Tuần trước, một nhà nghiên cứu đã thử xem trước sớm của Claude 3.7 Sonnet.
Các kết quả rất nổi bật. Trong vài giờ, Claude đánh bại Brock. Vài ngày sau, nó bị sương mù. Tiến bộ mà các mô hình cũ có rất ít hy vọng đạt được.
Hóa ra suy nghĩ mở rộng là siêu hiệu quả. pic.twitter.com/rspslgj2uf
- Nhân chủng học (@anthropicai) ngày 25 tháng 2 năm 2025
Sẽ không lâu nữa trước khi một số nhà phát triển thông minh tìm ra các chi tiết nitty-gritty.
Mặc dù Pokémon Red có vẻ như là một bài kiểm tra thú vị, các trò chơi thực sự đã được sử dụng cho điểm chuẩn AI cho nhiều năm. Chỉ trong vài tháng qua, chúng tôi đã thấy một loạt các ứng dụng và nền tảng mới xuất hiện để kiểm tra các mô hình AI có thể chơi mọi thứ tốt như thế nào từ Street Fighter đến Pictionary.




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












