Pokémon đã sử dụng nhân học để đánh giá mô hình AI mới nhất của nó
Trong một động thái đáng ngạc nhiên, Anthropic đã quyết định đưa mô hình AI mới nhất của mình, Claude 3.7 Sonnet, vào thử nghiệm với trò chơi Game Boy cổ điển, Pokémon Red. Theo một bài đăng trên blog được phát hành vào thứ Hai, công ty đã đưa ra mô hình với các yếu tố cần thiết: bộ nhớ, khả năng đọc các pixel màn hình và sức mạnh để nhấn nút và di chuyển xung quanh màn hình trò chơi. Thiết lập này cho phép Claude 3.7 Sonnet đi sâu vào thế giới của Pokémon và tiếp tục chơi.
Điều khiến Claude 3.7 Sonnet khác biệt là sở trường của nó cho "suy nghĩ mở rộng". Tương tự như các mô hình khác như O3-Mini của Openai và R1 của Deepseek, nó có thể giải quyết các vấn đề khó khăn bằng cách tăng sức mạnh tính toán và dành thời gian ngọt ngào để suy nghĩ mọi thứ.
Tính năng này được chứng minh là một người thay đổi trò chơi trong Pokémon Red. Trong khi Sonnet Claude 3.0 cũ hơn thậm chí không thể ra khỏi khu vực bắt đầu ở Pallet Town, Claude 3.7 Sonnet đã xoay sở để hạ gục ba nhà lãnh đạo phòng tập thể dục và lấy huy hiệu của họ.

Tín dụng hình ảnh: Nhân học Bây giờ, Anthropic đã không làm đổ đậu vào chính xác mức độ cần thiết của điện toán hoặc mất bao lâu để Claude 3.7 Sonnet đạt được các cột mốc này. Họ chỉ đề cập rằng mô hình đã thực hiện 35.000 hành động để đối đầu với người lãnh đạo phòng tập thể dục cuối cùng, Surge.
Tuần trước, một nhà nghiên cứu đã thử xem trước sớm của Claude 3.7 Sonnet.
Các kết quả rất nổi bật. Trong vài giờ, Claude đánh bại Brock. Vài ngày sau, nó bị sương mù. Tiến bộ mà các mô hình cũ có rất ít hy vọng đạt được.
Hóa ra suy nghĩ mở rộng là siêu hiệu quả. pic.twitter.com/rspslgj2uf
- Nhân chủng học (@anthropicai) ngày 25 tháng 2 năm 2025
Sẽ không lâu nữa trước khi một số nhà phát triển thông minh tìm ra các chi tiết nitty-gritty.
Mặc dù Pokémon Red có vẻ như là một bài kiểm tra thú vị, các trò chơi thực sự đã được sử dụng cho điểm chuẩn AI cho nhiều năm. Chỉ trong vài tháng qua, chúng tôi đã thấy một loạt các ứng dụng và nền tảng mới xuất hiện để kiểm tra các mô hình AI có thể chơi mọi thứ tốt như thế nào từ Street Fighter đến Pictionary.
Bài viết liên quan
Дебаты по сравнению с ИИ достигли покемонов
Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно сообщению, Близнецы
Fireflies.ai và Microsoft Planner Tự động hóa Ghi chú Cuộc họp
Hướng dẫn Tối ưu về Tự động hóa Ghi chú Cuộc họp & Quản lý Nhiệm vụHãy tưởng tượng không còn phải ghi chép thủ công cho bất kỳ cuộc họp nào nữa. Không còn phải vội vã ghi lại các nhiệm vụ, không còn q
Tăng Tương Tác với Reels Emoji được Hỗ trợ bởi AI để Phát Triển Viral
Hướng Dẫn Tối Ưu để Tạo Reels Emoji Viral với AI (Và Kiếm Tiền Từ Chúng)Bạn muốn biến sự hiện diện trên mạng xã hội thành một cỗ máy kiếm tiền? Đây là một bí mật nhỏ: một số nội dung viral nhất lại là
Nhận xét (15)
0/200
GeorgeWilliams
00:00:00 GMT Ngày 12 tháng 4 năm 2025
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
00:00:00 GMT Ngày 12 tháng 4 năm 2025
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
00:00:00 GMT Ngày 13 tháng 4 năm 2025
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
00:00:00 GMT Ngày 15 tháng 4 năm 2025
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
00:00:00 GMT Ngày 15 tháng 4 năm 2025
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
00:00:00 GMT Ngày 12 tháng 4 năm 2025
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0
Trong một động thái đáng ngạc nhiên, Anthropic đã quyết định đưa mô hình AI mới nhất của mình, Claude 3.7 Sonnet, vào thử nghiệm với trò chơi Game Boy cổ điển, Pokémon Red. Theo một bài đăng trên blog được phát hành vào thứ Hai, công ty đã đưa ra mô hình với các yếu tố cần thiết: bộ nhớ, khả năng đọc các pixel màn hình và sức mạnh để nhấn nút và di chuyển xung quanh màn hình trò chơi. Thiết lập này cho phép Claude 3.7 Sonnet đi sâu vào thế giới của Pokémon và tiếp tục chơi.
Điều khiến Claude 3.7 Sonnet khác biệt là sở trường của nó cho "suy nghĩ mở rộng". Tương tự như các mô hình khác như O3-Mini của Openai và R1 của Deepseek, nó có thể giải quyết các vấn đề khó khăn bằng cách tăng sức mạnh tính toán và dành thời gian ngọt ngào để suy nghĩ mọi thứ.
Tính năng này được chứng minh là một người thay đổi trò chơi trong Pokémon Red. Trong khi Sonnet Claude 3.0 cũ hơn thậm chí không thể ra khỏi khu vực bắt đầu ở Pallet Town, Claude 3.7 Sonnet đã xoay sở để hạ gục ba nhà lãnh đạo phòng tập thể dục và lấy huy hiệu của họ.
Tuần trước, một nhà nghiên cứu đã thử xem trước sớm của Claude 3.7 Sonnet.
Các kết quả rất nổi bật. Trong vài giờ, Claude đánh bại Brock. Vài ngày sau, nó bị sương mù. Tiến bộ mà các mô hình cũ có rất ít hy vọng đạt được.
Hóa ra suy nghĩ mở rộng là siêu hiệu quả. pic.twitter.com/rspslgj2uf
- Nhân chủng học (@anthropicai) ngày 25 tháng 2 năm 2025
Sẽ không lâu nữa trước khi một số nhà phát triển thông minh tìm ra các chi tiết nitty-gritty.
Mặc dù Pokémon Red có vẻ như là một bài kiểm tra thú vị, các trò chơi thực sự đã được sử dụng cho điểm chuẩn AI cho nhiều năm. Chỉ trong vài tháng qua, chúng tôi đã thấy một loạt các ứng dụng và nền tảng mới xuất hiện để kiểm tra các mô hình AI có thể chơi mọi thứ tốt như thế nào từ Street Fighter đến Pictionary.




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












