关于AI基准测试的辩论已达到神奇宝贝

即使是深受喜爱的宝可梦世界也无法免受AI基准测试的争议影响。最近X上的一篇病毒式帖子引起了热议,声称谷歌最新的Gemini模型在经典宝可梦视频游戏三部曲中超越了Anthropic的领先Claude模型。据该帖子称,Gemini在一场开发者Twitch直播中令人印象深刻地到达了薰衣草镇,而Claude截至二月底仍滞留在月见山。
Gemini目前在宝可梦中确实领先于Claude,已到达薰衣草镇
只有119人观看直播,太被低估了 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
然而,这篇帖子有意忽略了一个事实:Gemini拥有一些不公平的优势。Reddit上的精明用户很快指出,Gemini直播背后的开发者制作了一个定制的小地图。这个巧妙的工具帮助模型识别游戏中的“图块”,如可砍伐的树木,大大减少了Gemini在决定下一步行动前分析截图的时间。
虽然宝可梦可能不是最严肃的AI基准测试,但它确实是一个有趣且具有启发性的例子,展示了不同设置如何扭曲这些测试的结果。以Anthropic的最新模型Anthropic 3.7 Sonnet为例。在旨在测试编码能力的SWE-bench Verified基准测试中,它获得了62.3%的准确率。但通过Anthropic定制的“定制脚手架”,该得分跃升至70.3%。
这还没完。Meta对其较新的模型Llama 4 Maverick进行了专门针对LM Arena基准测试的微调。该模型的原版在同一测试中的表现远不如微调版。
考虑到AI基准测试,包括我们友好的宝可梦例子,已经有些不稳定,这些定制调整和非标准方法使得在模型上市时进行有意义的比较变得更加困难。看起来,比较同类事物正变得越来越难。
相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
评论 (9)
0/500
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

即使是深受喜爱的宝可梦世界也无法免受AI基准测试的争议影响。最近X上的一篇病毒式帖子引起了热议,声称谷歌最新的Gemini模型在经典宝可梦视频游戏三部曲中超越了Anthropic的领先Claude模型。据该帖子称,Gemini在一场开发者Twitch直播中令人印象深刻地到达了薰衣草镇,而Claude截至二月底仍滞留在月见山。
Gemini目前在宝可梦中确实领先于Claude,已到达薰衣草镇
只有119人观看直播,太被低估了 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
然而,这篇帖子有意忽略了一个事实:Gemini拥有一些不公平的优势。Reddit上的精明用户很快指出,Gemini直播背后的开发者制作了一个定制的小地图。这个巧妙的工具帮助模型识别游戏中的“图块”,如可砍伐的树木,大大减少了Gemini在决定下一步行动前分析截图的时间。
虽然宝可梦可能不是最严肃的AI基准测试,但它确实是一个有趣且具有启发性的例子,展示了不同设置如何扭曲这些测试的结果。以Anthropic的最新模型Anthropic 3.7 Sonnet为例。在旨在测试编码能力的SWE-bench Verified基准测试中,它获得了62.3%的准确率。但通过Anthropic定制的“定制脚手架”,该得分跃升至70.3%。
这还没完。Meta对其较新的模型Llama 4 Maverick进行了专门针对LM Arena基准测试的微调。该模型的原版在同一测试中的表现远不如微调版。
考虑到AI基准测试,包括我们友好的宝可梦例子,已经有些不稳定,这些定制调整和非标准方法使得在模型上市时进行有意义的比较变得更加困难。看起来,比较同类事物正变得越来越难。
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯





首页






