选项
首页
新闻
人类使用神奇宝贝来基准其最新的AI型号

人类使用神奇宝贝来基准其最新的AI型号

2025-04-10
313

出人意料的是,Anthropic决定让其最新AI模型Claude 3.7 Sonnet接受经典Game Boy游戏《精灵宝可梦红》的考验。根据周一发布的一篇博客文章,该公司为该模型配备了必要的功能:记忆能力、读取屏幕像素的能力,以及按下按钮和在游戏屏幕上移动的能力。这种设置让Claude 3.7 Sonnet能够深入《精灵宝可梦》的世界并持续进行游戏。

Claude 3.7 Sonnet的独特之处在于其“扩展思考”能力。与OpenAI的o3-mini和DeepSeek的R1等其他模型类似,它可以通过提升计算能力并花时间深入思考来应对复杂问题。

这一特性在《精灵宝可梦红》中被证明是游戏的转折点。旧版的Claude 3.0 Sonnet甚至无法离开起始区域帕雷特镇,而Claude 3.7 Sonnet成功击败了三位道馆馆主并获得了他们的徽章。

Anthropic精灵宝可梦红

图片来源:Anthropic
现在,Anthropic并未透露Claude 3.7 Sonnet达成这些里程碑究竟需要多少计算能力或耗费了多长时间。他们只提到该模型执行了惊人的35,000次动作以对抗最后一位道馆馆主——雷电中尉。

上周,一位研究人员尝试了Claude 3.7 Sonnet的早期预览版。

结果令人震惊。几小时内,Claude击败了小刚。几天后,它又轻松击败了小霞。旧版模型几乎没有希望取得的进展。

事实证明,扩展思考非常有效。pic.twitter.com/RspsLgj2Uf

— Anthropic (@AnthropicAI) 2025年2月25日

相信不久后,某个聪明的开发者会弄清楚这些细节。

虽然《精灵宝可梦红》看似只是个有趣的测试,但游戏实际上早已被用于AI性能基准测试。在过去几个月中,我们看到了一堆新应用和平台涌现,用以测试AI模型在从《街头霸王》到《你画我猜》等各种游戏中的表现。

相关文章
谷歌人工智能 谷歌人工智能 "双子座 "在帮助下战胜神奇宝贝之蓝 谷歌人工智能里程碑征服经典口袋妖怪大冒险谷歌最先进的人工智能模型似乎取得了一项显著的游戏突破--完成了 1996 年 Game Boy 游戏《口袋妖怪 Blue》。首席执行官桑达尔-皮查伊在社交媒体上庆祝了这一成就,不过这一成就也有重要的背景。双子座玩神奇宝贝》直播项目实际上是由软件工程师乔尔-兹(Joel Z)独立开发的,他自称与谷歌没有任何关系。不过,谷歌高管对这一尝试给予了热情支持,人工智能
关于AI基准测试的辩论已达到神奇宝贝 关于AI基准测试的辩论已达到神奇宝贝 即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
相关专题推荐
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
评论 (19)
0/500
GaryWilson
GaryWilson 2025-10-30 02:31:10

와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?

BillyAdams
BillyAdams 2025-08-27 20:59:25

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎

FrankSanchez
FrankSanchez 2025-08-12 01:01:02

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄

PaulSanchez
PaulSanchez 2025-07-23 12:59:29

Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️

LawrenceLopez
LawrenceLopez 2025-04-22 12:33:07

Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂

JeffreyRamirez
JeffreyRamirez 2025-04-20 16:47:48

Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂

OR