选项
首页
新闻
关于AI基准测试的辩论已达到神奇宝贝

关于AI基准测试的辩论已达到神奇宝贝

2025-05-03
89

关于AI基准测试的辩论已达到神奇宝贝

即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。据《邮报》报道,双子座在开发商的Twitch流中令人印象深刻地到达了薰衣草小镇,而克劳德(Claude)截至2月下旬在穆特(Mount Moon)落后。

到达薰衣草小镇后

119仅实时景观顺便说一句,被低估的流pic.twitter.com/8avsovai4x

- Jush(@jush21e8)2025年4月10日

但是,这篇文章方便遗漏的事实是,双子座的优势有些不公平。 Reddit上精明的用户很快指出,Gemini Stream背后的开发人员制作了自定义的最小值。这种漂亮的工具有助于该模型识别游戏中的“瓷砖”,例如可剪裁的树,它大大减少了Gemini需要花费分析屏幕截图之前的时间,然后才能决定下一步。

现在,尽管Pokémon可能不是最严重的AI基准,但它确实是一个有趣但有说服力的例子,说明不同的设置如何偏向这些测试的结果。以Anthropic的最新模型为Anthropic 3.7十四行诗。在旨在测试编码能力的SWE基础验证的基准测试中,它的精度为62.3%。但是,凭借“自定义脚手架”,人类的鞭打得以升高,得分跃升至70.3%。

而且它不止于此。梅塔(Meta)采用了其较新的模特之一,雅玛4小牛(Llama 4 Maverick),并专门针对LM Arena Benchmark进行了微调。在同一测试中,该型号的香草版本几乎不太好。

鉴于AI基准测试(包括我们友好的神奇宝贝示例)已经有点受到打击,因此这些自定义的调整和非标准方法使得在模型上投入市场时进行有意义的比较变得更加棘手。似乎将苹果与苹果进行比较可能会越来越难。

相关文章
xAI đăng các lời nhắc hậu trường của Grok xAI đăng các lời nhắc hậu trường của Grok xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
评论 (5)
0/200
JasonKing
JasonKing 2025-05-05 08:00:00

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025-05-05 08:00:00

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

AlbertThomas
AlbertThomas 2025-05-04 08:00:00

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025-05-04 08:00:00

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

WalterThomas
WalterThomas 2025-05-04 08:00:00

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

返回顶部
OR