选项
首页
新闻
人类使用神奇宝贝来基准其最新的AI型号

人类使用神奇宝贝来基准其最新的AI型号

2025-04-10
138

出人意料的是,Anthropic决定让其最新AI模型Claude 3.7 Sonnet接受经典Game Boy游戏《精灵宝可梦红》的考验。根据周一发布的一篇博客文章,该公司为该模型配备了必要的功能:记忆能力、读取屏幕像素的能力,以及按下按钮和在游戏屏幕上移动的能力。这种设置让Claude 3.7 Sonnet能够深入《精灵宝可梦》的世界并持续进行游戏。

Claude 3.7 Sonnet的独特之处在于其“扩展思考”能力。与OpenAI的o3-mini和DeepSeek的R1等其他模型类似,它可以通过提升计算能力并花时间深入思考来应对复杂问题。

这一特性在《精灵宝可梦红》中被证明是游戏的转折点。旧版的Claude 3.0 Sonnet甚至无法离开起始区域帕雷特镇,而Claude 3.7 Sonnet成功击败了三位道馆馆主并获得了他们的徽章。

Anthropic精灵宝可梦红

图片来源:Anthropic
现在,Anthropic并未透露Claude 3.7 Sonnet达成这些里程碑究竟需要多少计算能力或耗费了多长时间。他们只提到该模型执行了惊人的35,000次动作以对抗最后一位道馆馆主——雷电中尉。

上周,一位研究人员尝试了Claude 3.7 Sonnet的早期预览版。

结果令人震惊。几小时内,Claude击败了小刚。几天后,它又轻松击败了小霞。旧版模型几乎没有希望取得的进展。

事实证明,扩展思考非常有效。pic.twitter.com/RspsLgj2Uf

— Anthropic (@AnthropicAI) 2025年2月25日

相信不久后,某个聪明的开发者会弄清楚这些细节。

虽然《精灵宝可梦红》看似只是个有趣的测试,但游戏实际上早已被用于AI性能基准测试。在过去几个月中,我们看到了一堆新应用和平台涌现,用以测试AI模型在从《街头霸王》到《你画我猜》等各种游戏中的表现。

相关文章
关于AI基准测试的辩论已达到神奇宝贝 关于AI基准测试的辩论已达到神奇宝贝 即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
创建AI驱动的着色书:综合指南 创建AI驱动的着色书:综合指南 设计着色书是一项回报丰厚的追求,结合艺术表达与用户放松体验。然而,过程可能劳动密集。幸运的是,AI工具简化了高质量、统一着色页的创建。本指南提供使用AI制作着色书的逐步方法,重点在于一致风格与最佳效率的技术。关键要点使用AI提示工具开发详细、结构化的着色页提示。确保着色书所有页面艺术风格的统一性。生成单一着色页设计的多样化变体。利用Ideogram等AI平台快速、高效创建着色书。优化提示以解决不一
Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具 Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具 Qodo,一家专注于代码质量的以色列AI编码初创公司,已与Google Cloud建立合作关系,以增强AI生成软件的完整性。随着企业越来越依赖AI进行编码,对强大的监督和质量保证工具的需求不断增长。Qodo的首席执行官伊塔马尔·弗里德曼指出,AI生成的代码现已成为现代开发的核心。“想象一个未来,AI编写所有代码;人类无法全部审查,”弗里德曼说。“我们需要系统来确保代码符合预期价值观。”Qodo的创
评论 (17)
0/200
FrankSanchez
FrankSanchez 2025-08-12 01:01:02

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄

PaulSanchez
PaulSanchez 2025-07-23 12:59:29

Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️

LawrenceLopez
LawrenceLopez 2025-04-22 12:33:07

Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂

JeffreyRamirez
JeffreyRamirez 2025-04-20 16:47:48

Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂

FrankSmith
FrankSmith 2025-04-17 22:27:49

포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂

JoeLee
JoeLee 2025-04-17 09:15:28

¿Usar Pokémon para probar IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Rojo es genial, pero un poco raro. Es increíble que pueda leer píxeles de la pantalla y recordar cosas, pero ¿realmente atrapa a todos? 🤔 Idea divertida, pero me pregunto qué tan práctico es en la vida real. ¡A atraparlos a todos, verdad? 😂

返回顶部
OR