Pokémon đã sử dụng nhân học để đánh giá mô hình AI mới nhất của nó

Trang chủ

Tin tức

Ngày 10 tháng 4 năm 2025

AvaHill

# pokemon

Trong một động thái đáng ngạc nhiên, Anthropic đã quyết định đưa mô hình AI mới nhất của mình, Claude 3.7 Sonnet, vào thử nghiệm với trò chơi Game Boy cổ điển, Pokémon Red. Theo một bài đăng trên blog được phát hành vào thứ Hai, công ty đã đưa ra mô hình với các yếu tố cần thiết: bộ nhớ, khả năng đọc các pixel màn hình và sức mạnh để nhấn nút và di chuyển xung quanh màn hình trò chơi. Thiết lập này cho phép Claude 3.7 Sonnet đi sâu vào thế giới của Pokémon và tiếp tục chơi.

Điều khiến Claude 3.7 Sonnet khác biệt là sở trường của nó cho "suy nghĩ mở rộng". Tương tự như các mô hình khác như O3-Mini của Openai và R1 của Deepseek, nó có thể giải quyết các vấn đề khó khăn bằng cách tăng sức mạnh tính toán và dành thời gian ngọt ngào để suy nghĩ mọi thứ.

Tính năng này được chứng minh là một người thay đổi trò chơi trong Pokémon Red. Trong khi Sonnet Claude 3.0 cũ hơn thậm chí không thể ra khỏi khu vực bắt đầu ở Pallet Town, Claude 3.7 Sonnet đã xoay sở để hạ gục ba nhà lãnh đạo phòng tập thể dục và lấy huy hiệu của họ.

Pokemon nhân học màu đỏ

Tín dụng hình ảnh: Nhân học

Bây giờ, Anthropic đã không làm đổ đậu vào chính xác mức độ cần thiết của điện toán hoặc mất bao lâu để Claude 3.7 Sonnet đạt được các cột mốc này. Họ chỉ đề cập rằng mô hình đã thực hiện 35.000 hành động để đối đầu với người lãnh đạo phòng tập thể dục cuối cùng, Surge.

Tuần trước, một nhà nghiên cứu đã thử xem trước sớm của Claude 3.7 Sonnet.
Các kết quả rất nổi bật. Trong vài giờ, Claude đánh bại Brock. Vài ngày sau, nó bị sương mù. Tiến bộ mà các mô hình cũ có rất ít hy vọng đạt được.
Hóa ra suy nghĩ mở rộng là siêu hiệu quả. pic.twitter.com/rspslgj2uf
- Nhân chủng học (@anthropicai) ngày 25 tháng 2 năm 2025

Sẽ không lâu nữa trước khi một số nhà phát triển thông minh tìm ra các chi tiết nitty-gritty.

Mặc dù Pokémon Red có vẻ như là một bài kiểm tra thú vị, các trò chơi thực sự đã được sử dụng cho điểm chuẩn AI cho nhiều năm. Chỉ trong vài tháng qua, chúng tôi đã thấy một loạt các ứng dụng và nền tảng mới xuất hiện để kiểm tra các mô hình AI có thể chơi mọi thứ tốt như thế nào từ Street Fighter đến Pictionary.

104

Bài viết liên quan

Дебаты по сравнению с ИИ достигли покемонов Даже любимый мир покемонов не застрахован от драмы, окружающей тесты ИИ. Недавний вирусный пост на X разжигал настоящий гул, утверждая, что последняя модель Gemini Google опередила ведущую модель Claude Antropic в классической трилогии видеоигр Pokémon. Согласно сообщению, Близнецы

Fireflies.ai và Microsoft Planner Tự động hóa Ghi chú Cuộc họp Hướng dẫn Tối ưu về Tự động hóa Ghi chú Cuộc họp & Quản lý Nhiệm vụHãy tưởng tượng không còn phải ghi chép thủ công cho bất kỳ cuộc họp nào nữa. Không còn phải vội vã ghi lại các nhiệm vụ, không còn q

Tăng Tương Tác với Reels Emoji được Hỗ trợ bởi AI để Phát Triển Viral Hướng Dẫn Tối Ưu để Tạo Reels Emoji Viral với AI (Và Kiếm Tiền Từ Chúng)Bạn muốn biến sự hiện diện trên mạng xã hội thành một cỗ máy kiếm tiền? Đây là một bí mật nhỏ: một số nội dung viral nhất lại là

Nhận xét (15)

0/200

Nộp

GeorgeWilliams

00:00:00 GMT Ngày 12 tháng 4 năm 2025

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen

00:00:00 GMT Ngày 12 tháng 4 năm 2025

ポケモンを使ってAIをベンチマークするなんて面白い！クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな？楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を！👏🎮

RogerSanchez

00:00:00 GMT Ngày 13 tháng 4 năm 2025

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner

00:00:00 GMT Ngày 15 tháng 4 năm 2025

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia

00:00:00 GMT Ngày 15 tháng 4 năm 2025

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález

00:00:00 GMT Ngày 12 tháng 4 năm 2025

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

Tin tức hàng đầu

Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Trải nghiệm ô chữ I/O do AI hỗ trợ Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Notebooklm thêm tính năng Discovery nguồn Web Adobe tiết lộ 10 đại lý AI chuyên dụng: Khám phá các ứng dụng kinh doanh của họ Hàn Quốc dừng tải xuống ứng dụng DeepSeek trong các cửa hàng địa phương

Hơn

Đặc trưng