人类使用神奇宝贝来基准其最新的AI型号
出人意料的是,Anthropic决定让其最新AI模型Claude 3.7 Sonnet接受经典Game Boy游戏《精灵宝可梦红》的考验。根据周一发布的一篇博客文章,该公司为该模型配备了必要的功能:记忆能力、读取屏幕像素的能力,以及按下按钮和在游戏屏幕上移动的能力。这种设置让Claude 3.7 Sonnet能够深入《精灵宝可梦》的世界并持续进行游戏。
Claude 3.7 Sonnet的独特之处在于其“扩展思考”能力。与OpenAI的o3-mini和DeepSeek的R1等其他模型类似,它可以通过提升计算能力并花时间深入思考来应对复杂问题。
这一特性在《精灵宝可梦红》中被证明是游戏的转折点。旧版的Claude 3.0 Sonnet甚至无法离开起始区域帕雷特镇,而Claude 3.7 Sonnet成功击败了三位道馆馆主并获得了他们的徽章。

图片来源:Anthropic 现在,Anthropic并未透露Claude 3.7 Sonnet达成这些里程碑究竟需要多少计算能力或耗费了多长时间。他们只提到该模型执行了惊人的35,000次动作以对抗最后一位道馆馆主——雷电中尉。上周,一位研究人员尝试了Claude 3.7 Sonnet的早期预览版。
结果令人震惊。几小时内,Claude击败了小刚。几天后,它又轻松击败了小霞。旧版模型几乎没有希望取得的进展。
事实证明,扩展思考非常有效。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日
相信不久后,某个聪明的开发者会弄清楚这些细节。
虽然《精灵宝可梦红》看似只是个有趣的测试,但游戏实际上早已被用于AI性能基准测试。在过去几个月中,我们看到了一堆新应用和平台涌现,用以测试AI模型在从《街头霸王》到《你画我猜》等各种游戏中的表现。
相关文章
谷歌人工智能 "双子座 "在帮助下战胜神奇宝贝之蓝
谷歌人工智能里程碑征服经典口袋妖怪大冒险谷歌最先进的人工智能模型似乎取得了一项显著的游戏突破--完成了 1996 年 Game Boy 游戏《口袋妖怪 Blue》。首席执行官桑达尔-皮查伊在社交媒体上庆祝了这一成就,不过这一成就也有重要的背景。双子座玩神奇宝贝》直播项目实际上是由软件工程师乔尔-兹(Joel Z)独立开发的,他自称与谷歌没有任何关系。不过,谷歌高管对这一尝试给予了热情支持,人工智能
关于AI基准测试的辩论已达到神奇宝贝
即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易
随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后
相关专题推荐
评论 (19)
0/500
와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂
出人意料的是,Anthropic决定让其最新AI模型Claude 3.7 Sonnet接受经典Game Boy游戏《精灵宝可梦红》的考验。根据周一发布的一篇博客文章,该公司为该模型配备了必要的功能:记忆能力、读取屏幕像素的能力,以及按下按钮和在游戏屏幕上移动的能力。这种设置让Claude 3.7 Sonnet能够深入《精灵宝可梦》的世界并持续进行游戏。
Claude 3.7 Sonnet的独特之处在于其“扩展思考”能力。与OpenAI的o3-mini和DeepSeek的R1等其他模型类似,它可以通过提升计算能力并花时间深入思考来应对复杂问题。
这一特性在《精灵宝可梦红》中被证明是游戏的转折点。旧版的Claude 3.0 Sonnet甚至无法离开起始区域帕雷特镇,而Claude 3.7 Sonnet成功击败了三位道馆馆主并获得了他们的徽章。

上周,一位研究人员尝试了Claude 3.7 Sonnet的早期预览版。
结果令人震惊。几小时内,Claude击败了小刚。几天后,它又轻松击败了小霞。旧版模型几乎没有希望取得的进展。
事实证明,扩展思考非常有效。pic.twitter.com/RspsLgj2Uf
— Anthropic (@AnthropicAI) 2025年2月25日
相信不久后,某个聪明的开发者会弄清楚这些细节。
虽然《精灵宝可梦红》看似只是个有趣的测试,但游戏实际上早已被用于AI性能基准测试。在过去几个月中,我们看到了一堆新应用和平台涌现,用以测试AI模型在从《街头霸王》到《你画我猜》等各种游戏中的表现。
谷歌人工智能 "双子座 "在帮助下战胜神奇宝贝之蓝
谷歌人工智能里程碑征服经典口袋妖怪大冒险谷歌最先进的人工智能模型似乎取得了一项显著的游戏突破--完成了 1996 年 Game Boy 游戏《口袋妖怪 Blue》。首席执行官桑达尔-皮查伊在社交媒体上庆祝了这一成就,不过这一成就也有重要的背景。双子座玩神奇宝贝》直播项目实际上是由软件工程师乔尔-兹(Joel Z)独立开发的,他自称与谷歌没有任何关系。不过,谷歌高管对这一尝试给予了热情支持,人工智能
关于AI基准测试的辩论已达到神奇宝贝
即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易
随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后
와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎
Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄
Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️
Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂





首页






