选项
首页
新闻
关于AI基准测试的辩论已达到神奇宝贝

关于AI基准测试的辩论已达到神奇宝贝

2025-05-03
122

关于AI基准测试的辩论已达到神奇宝贝

即使是深受喜爱的宝可梦世界也无法免受AI基准测试的争议影响。最近X上的一篇病毒式帖子引起了热议,声称谷歌最新的Gemini模型在经典宝可梦视频游戏三部曲中超越了Anthropic的领先Claude模型。据该帖子称,Gemini在一场开发者Twitch直播中令人印象深刻地到达了薰衣草镇,而Claude截至二月底仍滞留在月见山。

Gemini目前在宝可梦中确实领先于Claude,已到达薰衣草镇

只有119人观看直播,太被低估了 pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 2025年4月10日

然而,这篇帖子有意忽略了一个事实:Gemini拥有一些不公平的优势。Reddit上的精明用户很快指出,Gemini直播背后的开发者制作了一个定制的小地图。这个巧妙的工具帮助模型识别游戏中的“图块”,如可砍伐的树木,大大减少了Gemini在决定下一步行动前分析截图的时间。

虽然宝可梦可能不是最严肃的AI基准测试,但它确实是一个有趣且具有启发性的例子,展示了不同设置如何扭曲这些测试的结果。以Anthropic的最新模型Anthropic 3.7 Sonnet为例。在旨在测试编码能力的SWE-bench Verified基准测试中,它获得了62.3%的准确率。但通过Anthropic定制的“定制脚手架”,该得分跃升至70.3%。

这还没完。Meta对其较新的模型Llama 4 Maverick进行了专门针对LM Arena基准测试的微调。该模型的原版在同一测试中的表现远不如微调版。

考虑到AI基准测试,包括我们友好的宝可梦例子,已经有些不稳定,这些定制调整和非标准方法使得在模型上市时进行有意义的比较变得更加困难。看起来,比较同类事物正变得越来越难。

相关文章
Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心 甲骨文400亿美元英伟达芯片投资助推德克萨斯AI数据中心 据《金融时报》报道,甲骨文计划投资约400亿美元购买英伟达芯片,为OpenAI在德克萨斯州开发的大型新数据中心提供动力。这是迄今为止最大的芯片收购交易之一,凸显了对AI计算资源激增的需求。该设施位于德克萨斯州阿比林,是美国首个“星门”数据中心。由OpenAI和软银支持,这是构建大规模AI基础设施的更广泛计划的一部分。该德克萨斯中心计划于明年完工,将提供1.2吉瓦的计算能力,使其跻身全球最大数据中心
Meta AI应用将引入高级订阅和广告 Meta AI应用将引入高级订阅和广告 Meta的AI应用可能很快推出付费订阅服务,效仿OpenAI、Google和Microsoft等竞争对手的做法。在2025年第一季度财报电话会议上,Meta首席执行官马克·扎克伯格概述了高级服务的计划,使用户能够访问增强的计算能力或Meta AI的额外功能。为了与ChatGPT竞争,Meta本周推出了一款独立AI应用,允许用户直接与聊天机器人互动并进行图像生成。该聊天机器人目前拥有近10亿用户,此
评论 (6)
0/200
DouglasMartínez
DouglasMartínez 2025-08-07 01:01:00

Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️

JasonKing
JasonKing 2025-05-05 19:38:52

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025-05-05 07:11:33

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

WalterThomas
WalterThomas 2025-05-04 23:05:10

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

AlbertThomas
AlbertThomas 2025-05-04 14:38:28

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025-05-04 03:01:44

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

返回顶部
OR