Pokémon đã sử dụng nhân học để đánh giá mô hình AI mới nhất của nó
Ngày 10 tháng 4 năm 2025
AvaHill
41
Trong một động thái đáng ngạc nhiên, Anthropic đã quyết định đưa mô hình AI mới nhất của mình, Claude 3.7 Sonnet, vào thử nghiệm với trò chơi Game Boy cổ điển, Pokémon Red. Theo một bài đăng trên blog được phát hành vào thứ Hai, công ty đã đưa ra mô hình với các yếu tố cần thiết: bộ nhớ, khả năng đọc các pixel màn hình và sức mạnh để nhấn nút và di chuyển xung quanh màn hình trò chơi. Thiết lập này cho phép Claude 3.7 Sonnet đi sâu vào thế giới của Pokémon và tiếp tục chơi.
Điều khiến Claude 3.7 Sonnet khác biệt là sở trường của nó cho "suy nghĩ mở rộng". Tương tự như các mô hình khác như O3-Mini của Openai và R1 của Deepseek, nó có thể giải quyết các vấn đề khó khăn bằng cách tăng sức mạnh tính toán và dành thời gian ngọt ngào để suy nghĩ mọi thứ.
Tính năng này được chứng minh là một người thay đổi trò chơi trong Pokémon Red. Trong khi Sonnet Claude 3.0 cũ hơn thậm chí không thể ra khỏi khu vực bắt đầu ở Pallet Town, Claude 3.7 Sonnet đã xoay sở để hạ gục ba nhà lãnh đạo phòng tập thể dục và lấy huy hiệu của họ.

Tín dụng hình ảnh: Nhân học Bây giờ, Anthropic đã không làm đổ đậu vào chính xác mức độ cần thiết của điện toán hoặc mất bao lâu để Claude 3.7 Sonnet đạt được các cột mốc này. Họ chỉ đề cập rằng mô hình đã thực hiện 35.000 hành động để đối đầu với người lãnh đạo phòng tập thể dục cuối cùng, Surge.
Tuần trước, một nhà nghiên cứu đã thử xem trước sớm của Claude 3.7 Sonnet.
Các kết quả rất nổi bật. Trong vài giờ, Claude đánh bại Brock. Vài ngày sau, nó bị sương mù. Tiến bộ mà các mô hình cũ có rất ít hy vọng đạt được.
Hóa ra suy nghĩ mở rộng là siêu hiệu quả. pic.twitter.com/rspslgj2uf
- Nhân chủng học (@anthropicai) ngày 25 tháng 2 năm 2025
Sẽ không lâu nữa trước khi một số nhà phát triển thông minh tìm ra các chi tiết nitty-gritty.
Mặc dù Pokémon Red có vẻ như là một bài kiểm tra thú vị, các trò chơi thực sự đã được sử dụng cho điểm chuẩn AI cho nhiều năm. Chỉ trong vài tháng qua, chúng tôi đã thấy một loạt các ứng dụng và nền tảng mới xuất hiện để kiểm tra các mô hình AI có thể chơi mọi thứ tốt như thế nào từ Street Fighter đến Pictionary.
Bài viết liên quan
Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon
Ngay cả thế giới yêu quý của Pokémon cũng không miễn nhiễm với bộ phim xung quanh điểm chuẩn của AI. Một bài đăng lan truyền gần đây trên X đã khuấy động khá buzz, tuyên bố rằng mô hình Song Tử mới nhất của Google đã vượt xa mô hình Claude hàng đầu của Anthropic trong bộ ba trò chơi video Pokémon cổ điển. Theo bài viết, Song Tử
Bảng màu AI của Filmora 14 Cách mạng hóa Video Chỉnh sửa video
Bạn đã bao giờ thấy mình bị mắc kẹt trong quá trình miệt mài để phân loại video của bạn chưa? Chà, Filmora 14 đã đưa ra một người thay đổi trò chơi: bảng màu AI. Công cụ tiện lợi này được thiết lập để cách mạng hóa cách bạn tiếp cận kết hợp màu sắc, khiến nó trở nên dễ dàng để đạt được cái nhìn chuyên nghiệp, bóng bẩy mà bạn
Meta AI tăng cường các dịch vụ với sự hỗ trợ của tiếng Ả Rập ở khu vực MENA
Việc mở rộng các dịch vụ AI của Meta cho các nhà phê bình Trung Đông và Bắc Phi liên quan đến việc thiếu sự đa dạng ngôn ngữ trong các mô hình ngôn ngữ lớn, các công ty AI lớn đang đẩy mạnh để giải quyết vấn đề này bằng cách phát triển các mô hình cụ thể theo khu vực. Meta hiện đang tham gia phong trào này bằng cách mở rộng nó
Nhận xét (15)
0/200
GeorgeWilliams
17:22:08 GMT Ngày 11 tháng 4 năm 2025
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
03:40:24 GMT Ngày 12 tháng 4 năm 2025
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
05:05:35 GMT Ngày 13 tháng 4 năm 2025
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
22:24:40 GMT Ngày 14 tháng 4 năm 2025
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
19:59:47 GMT Ngày 14 tháng 4 năm 2025
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
04:11:07 GMT Ngày 12 tháng 4 năm 2025
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0






Trong một động thái đáng ngạc nhiên, Anthropic đã quyết định đưa mô hình AI mới nhất của mình, Claude 3.7 Sonnet, vào thử nghiệm với trò chơi Game Boy cổ điển, Pokémon Red. Theo một bài đăng trên blog được phát hành vào thứ Hai, công ty đã đưa ra mô hình với các yếu tố cần thiết: bộ nhớ, khả năng đọc các pixel màn hình và sức mạnh để nhấn nút và di chuyển xung quanh màn hình trò chơi. Thiết lập này cho phép Claude 3.7 Sonnet đi sâu vào thế giới của Pokémon và tiếp tục chơi.
Điều khiến Claude 3.7 Sonnet khác biệt là sở trường của nó cho "suy nghĩ mở rộng". Tương tự như các mô hình khác như O3-Mini của Openai và R1 của Deepseek, nó có thể giải quyết các vấn đề khó khăn bằng cách tăng sức mạnh tính toán và dành thời gian ngọt ngào để suy nghĩ mọi thứ.
Tính năng này được chứng minh là một người thay đổi trò chơi trong Pokémon Red. Trong khi Sonnet Claude 3.0 cũ hơn thậm chí không thể ra khỏi khu vực bắt đầu ở Pallet Town, Claude 3.7 Sonnet đã xoay sở để hạ gục ba nhà lãnh đạo phòng tập thể dục và lấy huy hiệu của họ.
Tuần trước, một nhà nghiên cứu đã thử xem trước sớm của Claude 3.7 Sonnet.
Các kết quả rất nổi bật. Trong vài giờ, Claude đánh bại Brock. Vài ngày sau, nó bị sương mù. Tiến bộ mà các mô hình cũ có rất ít hy vọng đạt được.
Hóa ra suy nghĩ mở rộng là siêu hiệu quả. pic.twitter.com/rspslgj2uf
- Nhân chủng học (@anthropicai) ngày 25 tháng 2 năm 2025
Sẽ không lâu nữa trước khi một số nhà phát triển thông minh tìm ra các chi tiết nitty-gritty.
Mặc dù Pokémon Red có vẻ như là một bài kiểm tra thú vị, các trò chơi thực sự đã được sử dụng cho điểm chuẩn AI cho nhiều năm. Chỉ trong vài tháng qua, chúng tôi đã thấy một loạt các ứng dụng và nền tảng mới xuất hiện để kiểm tra các mô hình AI có thể chơi mọi thứ tốt như thế nào từ Street Fighter đến Pictionary.




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












