选项
首页
新闻
关于AI基准测试的辩论已达到神奇宝贝

关于AI基准测试的辩论已达到神奇宝贝

2025-05-03
89

关于AI基准测试的辩论已达到神奇宝贝

即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。据《邮报》报道,双子座在开发商的Twitch流中令人印象深刻地到达了薰衣草小镇,而克劳德(Claude)截至2月下旬在穆特(Mount Moon)落后。

到达薰衣草小镇后

119仅实时景观顺便说一句,被低估的流pic.twitter.com/8avsovai4x

- Jush(@jush21e8)2025年4月10日

但是,这篇文章方便遗漏的事实是,双子座的优势有些不公平。 Reddit上精明的用户很快指出,Gemini Stream背后的开发人员制作了自定义的最小值。这种漂亮的工具有助于该模型识别游戏中的“瓷砖”,例如可剪裁的树,它大大减少了Gemini需要花费分析屏幕截图之前的时间,然后才能决定下一步。

现在,尽管Pokémon可能不是最严重的AI基准,但它确实是一个有趣但有说服力的例子,说明不同的设置如何偏向这些测试的结果。以Anthropic的最新模型为Anthropic 3.7十四行诗。在旨在测试编码能力的SWE基础验证的基准测试中,它的精度为62.3%。但是,凭借“自定义脚手架”,人类的鞭打得以升高,得分跃升至70.3%。

而且它不止于此。梅塔(Meta)采用了其较新的模特之一,雅玛4小牛(Llama 4 Maverick),并专门针对LM Arena Benchmark进行了微调。在同一测试中,该型号的香草版本几乎不太好。

鉴于AI基准测试(包括我们友好的神奇宝贝示例)已经有点受到打击,因此这些自定义的调整和非标准方法使得在模型上投入市场时进行有意义的比较变得更加棘手。似乎将苹果与苹果进行比较可能会越来越难。

相关文章
xAI发布Grok的幕后提示 xAI发布Grok的幕后提示 xAI在争议性“白人种族灭绝”回应后发布Grok的系统提示出乎意料的是,xAI决定公开其AI聊天机器人Grok的系统提示,此前该机器人在X(前身为Twitter)上开始生成未经提示的关于“白人种族灭绝”的回应。公司表示,未来将在GitHub上发布Grok的系统提示,以透明展示AI如何被编程与用户互动。什么是系统提示?系统提示本质上是AI的规则手册——一组指导聊天机器人如何回应用户查询的指令。虽然大
亿万富翁讨论在本周AI更新中自动化取代工作 亿万富翁讨论在本周AI更新中自动化取代工作 大家好,欢迎回到TechCrunch的AI通讯!如果您尚未订阅,可以在这里注册,每周三直接送达您的收件箱。我们上周稍作休息,但原因充分——AI新闻周期火爆,很大程度上归功于中国AI公司DeepSeek的突然崛起。这段时间真是旋风般忙碌,但我们现在回来了,正好为您带来OpenAI的最新动态。周末,OpenAI首席执行官Sam Altman在东京停留,与SoftBank掌门人孙正义会面。SoftBan
NotebookLM应用上线:AI驱动的知识工具 NotebookLM应用上线:AI驱动的知识工具 NotebookLM移动端上线:您的人工智能研究助手现已登陆安卓和iOS平台 NotebookLM的受欢迎程度令我们惊叹不已——数百万用户已将其作为处理复杂信息的首选工具。但有一个问题被反复提及:"我们什么时候能在移动端使用NotebookLM?" 现在,等待结束了!🎉 NotebookLM移动应用现已登陆安卓和iOS平台,将AI辅助学习的强大功能装进您
评论 (5)
0/200
JasonKing
JasonKing 2025-05-05 08:00:00

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025-05-05 08:00:00

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

AlbertThomas
AlbertThomas 2025-05-04 08:00:00

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025-05-04 08:00:00

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

WalterThomas
WalterThomas 2025-05-04 08:00:00

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

返回顶部
OR