人类使用神奇宝贝来基准其最新的AI型号
出人意料的是,Anthropic决定让其最新AI模型Claude 3.7 Sonnet接受经典Game Boy游戏《精灵宝可梦红》的考验。根据周一发布的一篇博客文章,该公司为该模型配备了必要的功能:记忆能力、读取屏幕像素的能力,以及按下按钮和在游戏屏幕上移动的能力。这种设置让Claude 3.7 Sonnet能够深入《精灵宝可梦》的世界并持续进行游戏。
Claude 3.7 Sonnet的独特之处在于其“扩展思考”能力。与OpenAI的o3-mini和DeepSeek的R1等其他模型类似,它可以通过提升计算能力并花时间深入思考来应对复杂问题。
这一特性在《精灵宝可梦红》中被证明是游戏的转折点。旧版的Claude 3.0 Sonnet甚至无法离开起始区域帕雷特镇,而Claude 3.7 Sonnet成功击败了三位道馆馆主并获得了他们的徽章。

图片来源:Anthropic 现在,Anthropic并未透露Claude 3.7 Sonnet达成这些里程碑究竟需要多少计算能力或耗费了多长时间。他们只提到该模型执行了惊人的35,000次动作以对抗最后一位道馆馆主——雷电中尉。上周,一位研究人员尝试了Claude 3.7 Sonnet的早期预览版。
结果令人震惊。几小时内,Claude击败了小刚。几天后,它又轻松击败了小霞。旧版模型几乎没有希望取得的进展。
事实证明,扩展思考非常有效。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日
相信不久后,某个聪明的开发者会弄清楚这些细节。
虽然《精灵宝可梦红》看似只是个有趣的测试,但游戏实际上早已被用于AI性能基准测试。在过去几个月中,我们看到了一堆新应用和平台涌现,用以测试AI模型在从《街头霸王》到《你画我猜》等各种游戏中的表现。
相关文章
谷歌人工智能 "双子座 "在帮助下战胜神奇宝贝之蓝
谷歌人工智能里程碑征服经典口袋妖怪大冒险谷歌最先进的人工智能模型似乎取得了一项显著的游戏突破--完成了 1996 年 Game Boy 游戏《口袋妖怪 Blue》。首席执行官桑达尔-皮查伊在社交媒体上庆祝了这一成就,不过这一成就也有重要的背景。双子座玩神奇宝贝》直播项目实际上是由软件工程师乔尔-兹(Joel Z)独立开发的,他自称与谷歌没有任何关系。不过,谷歌高管对这一尝试给予了热情支持,人工智能
关于AI基准测试的辩论已达到神奇宝贝
即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
相关专题推荐
评论 (19)
0/500
와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂
出人意料的是,Anthropic决定让其最新AI模型Claude 3.7 Sonnet接受经典Game Boy游戏《精灵宝可梦红》的考验。根据周一发布的一篇博客文章,该公司为该模型配备了必要的功能:记忆能力、读取屏幕像素的能力,以及按下按钮和在游戏屏幕上移动的能力。这种设置让Claude 3.7 Sonnet能够深入《精灵宝可梦》的世界并持续进行游戏。
Claude 3.7 Sonnet的独特之处在于其“扩展思考”能力。与OpenAI的o3-mini和DeepSeek的R1等其他模型类似,它可以通过提升计算能力并花时间深入思考来应对复杂问题。
这一特性在《精灵宝可梦红》中被证明是游戏的转折点。旧版的Claude 3.0 Sonnet甚至无法离开起始区域帕雷特镇,而Claude 3.7 Sonnet成功击败了三位道馆馆主并获得了他们的徽章。

上周,一位研究人员尝试了Claude 3.7 Sonnet的早期预览版。
结果令人震惊。几小时内,Claude击败了小刚。几天后,它又轻松击败了小霞。旧版模型几乎没有希望取得的进展。
事实证明,扩展思考非常有效。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日
相信不久后,某个聪明的开发者会弄清楚这些细节。
虽然《精灵宝可梦红》看似只是个有趣的测试,但游戏实际上早已被用于AI性能基准测试。在过去几个月中,我们看到了一堆新应用和平台涌现,用以测试AI模型在从《街头霸王》到《你画我猜》等各种游戏中的表现。
谷歌人工智能 "双子座 "在帮助下战胜神奇宝贝之蓝
谷歌人工智能里程碑征服经典口袋妖怪大冒险谷歌最先进的人工智能模型似乎取得了一项显著的游戏突破--完成了 1996 年 Game Boy 游戏《口袋妖怪 Blue》。首席执行官桑达尔-皮查伊在社交媒体上庆祝了这一成就,不过这一成就也有重要的背景。双子座玩神奇宝贝》直播项目实际上是由软件工程师乔尔-兹(Joel Z)独立开发的,他自称与谷歌没有任何关系。不过,谷歌高管对这一尝试给予了热情支持,人工智能
关于AI基准测试的辩论已达到神奇宝贝
即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
小红书进行组织架构调整:柯南出任总裁,新设AI主营部门Dots及海外业务部门Rednote
4月30日,小红书向全体员工发布内部通告,宣布启动新一轮组织架构调整。此次调整的核心在于将社区、电商和商业化三大业务线与公司的技术系统全面整合。 公司新设了名为“Dots”的AI优先部门,这标志着小红书已正式将AI提升为最高战略优先级,旨在使其从工具性功能转变为核心生产力。在人事任命方面,南(丁玲)被任命为小红书总裁,负责公司核心业务运营,并直接向CEO邢宇汇报。 各业务板块负责人也已明确:智恒将
와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂





首页






