人类使用神奇宝贝来基准其最新的AI型号
出人意料的是,Anthropic决定让其最新AI模型Claude 3.7 Sonnet接受经典Game Boy游戏《精灵宝可梦红》的考验。根据周一发布的一篇博客文章,该公司为该模型配备了必要的功能:记忆能力、读取屏幕像素的能力,以及按下按钮和在游戏屏幕上移动的能力。这种设置让Claude 3.7 Sonnet能够深入《精灵宝可梦》的世界并持续进行游戏。
Claude 3.7 Sonnet的独特之处在于其“扩展思考”能力。与OpenAI的o3-mini和DeepSeek的R1等其他模型类似,它可以通过提升计算能力并花时间深入思考来应对复杂问题。
这一特性在《精灵宝可梦红》中被证明是游戏的转折点。旧版的Claude 3.0 Sonnet甚至无法离开起始区域帕雷特镇,而Claude 3.7 Sonnet成功击败了三位道馆馆主并获得了他们的徽章。

图片来源:Anthropic 现在,Anthropic并未透露Claude 3.7 Sonnet达成这些里程碑究竟需要多少计算能力或耗费了多长时间。他们只提到该模型执行了惊人的35,000次动作以对抗最后一位道馆馆主——雷电中尉。上周,一位研究人员尝试了Claude 3.7 Sonnet的早期预览版。
结果令人震惊。几小时内,Claude击败了小刚。几天后,它又轻松击败了小霞。旧版模型几乎没有希望取得的进展。
事实证明,扩展思考非常有效。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日
相信不久后,某个聪明的开发者会弄清楚这些细节。
虽然《精灵宝可梦红》看似只是个有趣的测试,但游戏实际上早已被用于AI性能基准测试。在过去几个月中,我们看到了一堆新应用和平台涌现,用以测试AI模型在从《街头霸王》到《你画我猜》等各种游戏中的表现。
相关文章
谷歌人工智能 "双子座 "在帮助下战胜神奇宝贝之蓝
谷歌人工智能里程碑征服经典口袋妖怪大冒险谷歌最先进的人工智能模型似乎取得了一项显著的游戏突破--完成了 1996 年 Game Boy 游戏《口袋妖怪 Blue》。首席执行官桑达尔-皮查伊在社交媒体上庆祝了这一成就,不过这一成就也有重要的背景。双子座玩神奇宝贝》直播项目实际上是由软件工程师乔尔-兹(Joel Z)独立开发的,他自称与谷歌没有任何关系。不过,谷歌高管对这一尝试给予了热情支持,人工智能
关于AI基准测试的辩论已达到神奇宝贝
即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
相关专题推荐
评论 (19)
0/500
와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂
出人意料的是,Anthropic决定让其最新AI模型Claude 3.7 Sonnet接受经典Game Boy游戏《精灵宝可梦红》的考验。根据周一发布的一篇博客文章,该公司为该模型配备了必要的功能:记忆能力、读取屏幕像素的能力,以及按下按钮和在游戏屏幕上移动的能力。这种设置让Claude 3.7 Sonnet能够深入《精灵宝可梦》的世界并持续进行游戏。
Claude 3.7 Sonnet的独特之处在于其“扩展思考”能力。与OpenAI的o3-mini和DeepSeek的R1等其他模型类似,它可以通过提升计算能力并花时间深入思考来应对复杂问题。
这一特性在《精灵宝可梦红》中被证明是游戏的转折点。旧版的Claude 3.0 Sonnet甚至无法离开起始区域帕雷特镇,而Claude 3.7 Sonnet成功击败了三位道馆馆主并获得了他们的徽章。

上周,一位研究人员尝试了Claude 3.7 Sonnet的早期预览版。
结果令人震惊。几小时内,Claude击败了小刚。几天后,它又轻松击败了小霞。旧版模型几乎没有希望取得的进展。
事实证明,扩展思考非常有效。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日
相信不久后,某个聪明的开发者会弄清楚这些细节。
虽然《精灵宝可梦红》看似只是个有趣的测试,但游戏实际上早已被用于AI性能基准测试。在过去几个月中,我们看到了一堆新应用和平台涌现,用以测试AI模型在从《街头霸王》到《你画我猜》等各种游戏中的表现。
谷歌人工智能 "双子座 "在帮助下战胜神奇宝贝之蓝
谷歌人工智能里程碑征服经典口袋妖怪大冒险谷歌最先进的人工智能模型似乎取得了一项显著的游戏突破--完成了 1996 年 Game Boy 游戏《口袋妖怪 Blue》。首席执行官桑达尔-皮查伊在社交媒体上庆祝了这一成就,不过这一成就也有重要的背景。双子座玩神奇宝贝》直播项目实际上是由软件工程师乔尔-兹(Joel Z)独立开发的,他自称与谷歌没有任何关系。不过,谷歌高管对这一尝试给予了热情支持,人工智能
关于AI基准测试的辩论已达到神奇宝贝
即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂





首页






