关于AI基准测试的辩论已达到神奇宝贝

即使是深受喜爱的宝可梦世界也无法免受AI基准测试的争议影响。最近X上的一篇病毒式帖子引起了热议,声称谷歌最新的Gemini模型在经典宝可梦视频游戏三部曲中超越了Anthropic的领先Claude模型。据该帖子称,Gemini在一场开发者Twitch直播中令人印象深刻地到达了薰衣草镇,而Claude截至二月底仍滞留在月见山。
Gemini目前在宝可梦中确实领先于Claude,已到达薰衣草镇
只有119人观看直播,太被低估了 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
然而,这篇帖子有意忽略了一个事实:Gemini拥有一些不公平的优势。Reddit上的精明用户很快指出,Gemini直播背后的开发者制作了一个定制的小地图。这个巧妙的工具帮助模型识别游戏中的“图块”,如可砍伐的树木,大大减少了Gemini在决定下一步行动前分析截图的时间。
虽然宝可梦可能不是最严肃的AI基准测试,但它确实是一个有趣且具有启发性的例子,展示了不同设置如何扭曲这些测试的结果。以Anthropic的最新模型Anthropic 3.7 Sonnet为例。在旨在测试编码能力的SWE-bench Verified基准测试中,它获得了62.3%的准确率。但通过Anthropic定制的“定制脚手架”,该得分跃升至70.3%。
这还没完。Meta对其较新的模型Llama 4 Maverick进行了专门针对LM Arena基准测试的微调。该模型的原版在同一测试中的表现远不如微调版。
考虑到AI基准测试,包括我们友好的宝可梦例子,已经有些不稳定,这些定制调整和非标准方法使得在模型上市时进行有意义的比较变得更加困难。看起来,比较同类事物正变得越来越难。
相关文章
"Dot AI伴侣应用程序宣布关闭,停止个性化服务
Dot 是一款人工智能伴侣应用程序,旨在充当个人朋友和知己,根据其开发者周五发布的公告,Dot 将停止运营。Dot背后的初创公司New Computer在其网站上表示,该服务将持续到10月5日,以便用户有时间导出个人数据。今年早些时候,联合创始人山姆-惠特莫尔(Sam Whitmore)和前苹果设计专家杰森-袁(Jason Yuan)合作推出了这款应用程序。Dot 进入了日益受到关注的情感人工智能
Anthropic 解决了人工智能生成盗版图书的法律案件
Anthropic公司与美国作家达成了一项重要的版权纠纷解决方案,同意拟议的集体诉讼和解,避免了可能代价高昂的审判。本周二在法庭文件中提交的这份协议源于对这家人工智能公司使用盗版文学作品训练克劳德模型的指控。尽管此案源于作家安德烈娅-巴茨(Andrea Bartz)、查尔斯-格雷伯(Charles Graeber)和柯克-华莱士-约翰逊(Kirk Wallace Johnson)的指控,但和解细节
Figma 向所有用户发布人工智能驱动的应用程序生成工具
Figma Make 是今年早些时候推出的创新型提示到应用开发平台,现已正式退出测试版,并向所有用户推出。这一开创性的工具加入了人工智能编码助手的行列,如谷歌的 Gemini Code Assist 和微软的 GitHub Copilot,使创作者能够将自然语言描述转化为功能原型和应用程序,而无需传统的编程专业知识。Figma Make 最初在测试阶段只对高级 "全席 "用户开放,现在对所有账户类
评论 (6)
0/200
DouglasMartínez
2025-08-07 01:01:00
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
0
JasonKing
2025-05-05 19:38:52
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
2025-05-05 07:11:33
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
WalterThomas
2025-05-04 23:05:10
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
AlbertThomas
2025-05-04 14:38:28
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
2025-05-04 03:01:44
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
即使是深受喜爱的宝可梦世界也无法免受AI基准测试的争议影响。最近X上的一篇病毒式帖子引起了热议,声称谷歌最新的Gemini模型在经典宝可梦视频游戏三部曲中超越了Anthropic的领先Claude模型。据该帖子称,Gemini在一场开发者Twitch直播中令人印象深刻地到达了薰衣草镇,而Claude截至二月底仍滞留在月见山。
Gemini目前在宝可梦中确实领先于Claude,已到达薰衣草镇
只有119人观看直播,太被低估了 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
然而,这篇帖子有意忽略了一个事实:Gemini拥有一些不公平的优势。Reddit上的精明用户很快指出,Gemini直播背后的开发者制作了一个定制的小地图。这个巧妙的工具帮助模型识别游戏中的“图块”,如可砍伐的树木,大大减少了Gemini在决定下一步行动前分析截图的时间。
虽然宝可梦可能不是最严肃的AI基准测试,但它确实是一个有趣且具有启发性的例子,展示了不同设置如何扭曲这些测试的结果。以Anthropic的最新模型Anthropic 3.7 Sonnet为例。在旨在测试编码能力的SWE-bench Verified基准测试中,它获得了62.3%的准确率。但通过Anthropic定制的“定制脚手架”,该得分跃升至70.3%。
这还没完。Meta对其较新的模型Llama 4 Maverick进行了专门针对LM Arena基准测试的微调。该模型的原版在同一测试中的表现远不如微调版。
考虑到AI基准测试,包括我们友好的宝可梦例子,已经有些不稳定,这些定制调整和非标准方法使得在模型上市时进行有意义的比较变得更加困难。看起来,比较同类事物正变得越来越难。



Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯












