選項
首頁
消息
關於AI基準測試的辯論已達到神奇寶貝

關於AI基準測試的辯論已達到神奇寶貝

2025-05-03
89

關於AI基準測試的辯論已達到神奇寶貝

即使是神奇寶貝的摯愛世界也不能免疫AI基準的戲劇。最近在X上的病毒帖子引起了轟動,聲稱Google的最新雙子座模特在經典的Pokémon視頻遊戲三部曲中超過了Anthropic的領先Claude模型。據《郵報》報導,雙子座在開發商的Twitch流中令人印象深刻地到達了薰衣草小鎮,而克勞德(Claude)截至2月下旬在穆特(Mount Moon)落後。

到達薰衣草小鎮後

119僅實時景觀順便說一句,被低估的流pic.twitter.com/8avsovai4x

- Jush(@jush21e8)2025年4月10日

但是,這篇文章方便遺漏的事實是,雙子座的優勢有些不公平。 Reddit上精明的用戶很快指出,Gemini Stream背後的開發人員製作了自定義的最小值。這種漂亮的工具有助於該模型識別遊戲中的“瓷磚”,例如可剪裁的樹,它大大減少了Gemini需要花費分析屏幕截圖之前的時間,然後才能決定下一步。

現在,儘管Pokémon可能不是最嚴重的AI基準,但它確實是一個有趣但有說服力的例子,說明不同的設置如何偏向這些測試的結果。以Anthropic的最新模型為Anthropic 3.7十四行詩。在旨在測試編碼能力的SWE基礎驗證的基準測試中,它的精度為62.3%。但是,憑藉“自定義腳手架”,人類的鞭打得以升高,得分躍升至70.3%。

而且它不止於此。梅塔(Meta)採用了其較新的模特之一,雅瑪4小牛(Llama 4 Maverick),並專門針對LM Arena Benchmark進行了微調。在同一測試中,該型號的香草版本幾乎不太好。

鑑於AI基準測試(包括我們友好的神奇寶貝示例)已經有點受到打擊,因此這些自定義的調整和非標準方法使得在模型上投入市場時進行有意義的比較變得更加棘手。似乎將蘋果與蘋果進行比較可能會越來越難。

相關文章
xAI发布Grok的幕后提示 xAI发布Grok的幕后提示 xAI在争议性“白人种族灭绝”回应后发布Grok的系统提示出乎意料的是,xAI决定公开其AI聊天机器人Grok的系统提示,此前该机器人在X(前身为Twitter)上开始生成未经提示的关于“白人种族灭绝”的回应。公司表示,未来将在GitHub上发布Grok的系统提示,以透明展示AI如何被编程与用户互动。什么是系统提示?系统提示本质上是AI的规则手册——一组指导聊天机器人如何回应用户查询的指令。虽然大
亿万富翁讨论在本周AI更新中自动化取代工作 亿万富翁讨论在本周AI更新中自动化取代工作 大家好,欢迎回到TechCrunch的AI通讯!如果您尚未订阅,可以在这里注册,每周三直接送达您的收件箱。我们上周稍作休息,但原因充分——AI新闻周期火爆,很大程度上归功于中国AI公司DeepSeek的突然崛起。这段时间真是旋风般忙碌,但我们现在回来了,正好为您带来OpenAI的最新动态。周末,OpenAI首席执行官Sam Altman在东京停留,与SoftBank掌门人孙正义会面。SoftBan
NotebookLM应用上线:AI驱动的知识工具 NotebookLM应用上线:AI驱动的知识工具 NotebookLM移动端上线:您的人工智能研究助手现已登陆安卓和iOS平台 NotebookLM的受欢迎程度令我们惊叹不已——数百万用户已将其作为处理复杂信息的首选工具。但有一个问题被反复提及:"我们什么时候能在移动端使用NotebookLM?" 现在,等待结束了!🎉 NotebookLM移动应用现已登陆安卓和iOS平台,将AI辅助学习的强大功能装进您
評論 (5)
0/200
JasonKing
JasonKing 2025-05-05 08:00:00

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025-05-05 08:00:00

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

AlbertThomas
AlbertThomas 2025-05-04 08:00:00

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025-05-04 08:00:00

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

WalterThomas
WalterThomas 2025-05-04 08:00:00

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

回到頂部
OR