關於AI基準測試的辯論已達到神奇寶貝

即使是深受喜愛的寶可夢世界,也無法免於圍繞AI基準測試的爭議。近期在X上的一則病毒式貼文引起了相當大的熱議,聲稱Google的最新Gemini模型在經典寶可夢電玩三部曲中超越了Anthropic領先的Claude模型。根據該貼文,Gemini在一位開發者的Twitch直播中令人印象深刻地抵達了紫苑鎮,而Claude截至二月底仍落後於月見山。
Gemini目前在寶可夢中確實領先Claude,已抵達紫苑鎮
僅有119人觀看直播,實在是極其被低估的直播 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
然而,這則貼文刻意忽略了一個事實:Gemini擁有一定的優勢。Reddit上的敏銳用戶很快指出,Gemini直播背後的開發者打造了一個自訂的小地圖。這個巧妙的工具幫助模型識別遊戲中的「圖塊」,例如可砍伐的樹木,這顯著減少了Gemini在分析螢幕截圖並決定下一步行動所需的時間。
雖然寶可夢可能不是最嚴肅的AI基準測試,但它確實是一個有趣且具啟發性的例子,展示了不同設置如何影響這些測試的結果。以Anthropic的最新模型Anthropic 3.7 Sonnet為例,在旨在測試編碼能力的SWE-bench Verified基準測試中,其得分為62.3%的準確率。但在Anthropic打造的「自訂框架」下,該分數躍升至70.3%。
這還不只如此。Meta對其較新的模型Llama 4 Maverick進行了專為LM Arena基準測試的微調,該模型的原始版本在同一測試中的表現遠不如微調版本。
鑑於AI基準測試,包括我們友好的寶可夢例子,本身就有些不穩定,這些自訂調整和非標準方法使得在模型上市時進行有意義的比較變得更加困難。看來,要將蘋果與蘋果進行比較,正變得越來越困難。
相關文章
Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot
Salesforce 推出全新工作場所 AI 策略,於週一宣布在 Slack 對話中引入專屬的「數位隊友」。全新工具 Agentforce in Slack 讓企業能夠創建並部署針對特定任務的 AI 代理,這些代理可搜尋工作場所聊天記錄、存取公司資料,並在員工日常工作的訊息平台內執行操作。「正如專業員工協作解決問題,我們的客戶需要 AI 代理共同合作,為客戶和員工解決問題,」Salesforce
甲骨文40億美元Nvidia晶片投資推動德州AI數據中心
據《金融時報》報導,甲骨文計劃投資約40億美元於Nvidia晶片,為OpenAI在德州開發的大型新數據中心提供動力。這筆交易是迄今為止最大的晶片收購之一,凸顯了對AI運算資源的激增需求。該設施位於德州阿比林,是美國首個「星門」數據中心。由OpenAI和軟銀支持,屬於建設大規模AI基礎設施的更廣泛計劃的一部分。該德州中心預計明年完工,將提供1.2吉瓦的運算能力,位列全球最大之列。甲骨文計劃採購約40
Meta AI應用程式將推出高級訂閱與廣告
Meta的AI應用程式即將推出付費訂閱服務,類似於OpenAI、Google和Microsoft等競爭對手的產品。在2025年第一季財報電話會議中,Meta首席執行官馬克·祖克柏格概述了高級服務的計劃,讓用戶能夠使用更強大的運算能力或Meta AI的額外功能。為了與ChatGPT競爭,Meta本週推出了一款獨立的AI應用程式,允許用戶直接與聊天機器人互動並進行圖像生成。該聊天機器人目前擁有近10億
評論 (6)
0/200
DouglasMartínez
2025-08-07 01:01:00
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
0
JasonKing
2025-05-05 19:38:52
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯
0
NicholasAdams
2025-05-05 07:11:33
ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯
0
WalterThomas
2025-05-04 23:05:10
पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯
0
AlbertThomas
2025-05-04 14:38:28
포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯
0
CharlesRoberts
2025-05-04 03:01:44
Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯
0
即使是深受喜愛的寶可夢世界,也無法免於圍繞AI基準測試的爭議。近期在X上的一則病毒式貼文引起了相當大的熱議,聲稱Google的最新Gemini模型在經典寶可夢電玩三部曲中超越了Anthropic領先的Claude模型。根據該貼文,Gemini在一位開發者的Twitch直播中令人印象深刻地抵達了紫苑鎮,而Claude截至二月底仍落後於月見山。
Gemini目前在寶可夢中確實領先Claude,已抵達紫苑鎮
僅有119人觀看直播,實在是極其被低估的直播 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
然而,這則貼文刻意忽略了一個事實:Gemini擁有一定的優勢。Reddit上的敏銳用戶很快指出,Gemini直播背後的開發者打造了一個自訂的小地圖。這個巧妙的工具幫助模型識別遊戲中的「圖塊」,例如可砍伐的樹木,這顯著減少了Gemini在分析螢幕截圖並決定下一步行動所需的時間。
雖然寶可夢可能不是最嚴肅的AI基準測試,但它確實是一個有趣且具啟發性的例子,展示了不同設置如何影響這些測試的結果。以Anthropic的最新模型Anthropic 3.7 Sonnet為例,在旨在測試編碼能力的SWE-bench Verified基準測試中,其得分為62.3%的準確率。但在Anthropic打造的「自訂框架」下,該分數躍升至70.3%。
這還不只如此。Meta對其較新的模型Llama 4 Maverick進行了專為LM Arena基準測試的微調,該模型的原始版本在同一測試中的表現遠不如微調版本。
鑑於AI基準測試,包括我們友好的寶可夢例子,本身就有些不穩定,這些自訂調整和非標準方法使得在模型上市時進行有意義的比較變得更加困難。看來,要將蘋果與蘋果進行比較,正變得越來越困難。



Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️




Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯




ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯




पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯




포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯




Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯












