關於AI基準測試的辯論已達到神奇寶貝

即使是深受喜愛的寶可夢世界,也無法免於圍繞AI基準測試的爭議。近期在X上的一則病毒式貼文引起了相當大的熱議,聲稱Google的最新Gemini模型在經典寶可夢電玩三部曲中超越了Anthropic領先的Claude模型。根據該貼文,Gemini在一位開發者的Twitch直播中令人印象深刻地抵達了紫苑鎮,而Claude截至二月底仍落後於月見山。
Gemini目前在寶可夢中確實領先Claude,已抵達紫苑鎮
僅有119人觀看直播,實在是極其被低估的直播 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
然而,這則貼文刻意忽略了一個事實:Gemini擁有一定的優勢。Reddit上的敏銳用戶很快指出,Gemini直播背後的開發者打造了一個自訂的小地圖。這個巧妙的工具幫助模型識別遊戲中的「圖塊」,例如可砍伐的樹木,這顯著減少了Gemini在分析螢幕截圖並決定下一步行動所需的時間。
雖然寶可夢可能不是最嚴肅的AI基準測試,但它確實是一個有趣且具啟發性的例子,展示了不同設置如何影響這些測試的結果。以Anthropic的最新模型Anthropic 3.7 Sonnet為例,在旨在測試編碼能力的SWE-bench Verified基準測試中,其得分為62.3%的準確率。但在Anthropic打造的「自訂框架」下,該分數躍升至70.3%。
這還不只如此。Meta對其較新的模型Llama 4 Maverick進行了專為LM Arena基準測試的微調,該模型的原始版本在同一測試中的表現遠不如微調版本。
鑑於AI基準測試,包括我們友好的寶可夢例子,本身就有些不穩定,這些自訂調整和非標準方法使得在模型上市時進行有意義的比較變得更加困難。看來,要將蘋果與蘋果進行比較,正變得越來越困難。
相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖
Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
評論 (9)
0/500
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

即使是深受喜愛的寶可夢世界,也無法免於圍繞AI基準測試的爭議。近期在X上的一則病毒式貼文引起了相當大的熱議,聲稱Google的最新Gemini模型在經典寶可夢電玩三部曲中超越了Anthropic領先的Claude模型。根據該貼文,Gemini在一位開發者的Twitch直播中令人印象深刻地抵達了紫苑鎮,而Claude截至二月底仍落後於月見山。
Gemini目前在寶可夢中確實領先Claude,已抵達紫苑鎮
僅有119人觀看直播,實在是極其被低估的直播 pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) 2025年4月10日
然而,這則貼文刻意忽略了一個事實:Gemini擁有一定的優勢。Reddit上的敏銳用戶很快指出,Gemini直播背後的開發者打造了一個自訂的小地圖。這個巧妙的工具幫助模型識別遊戲中的「圖塊」,例如可砍伐的樹木,這顯著減少了Gemini在分析螢幕截圖並決定下一步行動所需的時間。
雖然寶可夢可能不是最嚴肅的AI基準測試,但它確實是一個有趣且具啟發性的例子,展示了不同設置如何影響這些測試的結果。以Anthropic的最新模型Anthropic 3.7 Sonnet為例,在旨在測試編碼能力的SWE-bench Verified基準測試中,其得分為62.3%的準確率。但在Anthropic打造的「自訂框架」下,該分數躍升至70.3%。
這還不只如此。Meta對其較新的模型Llama 4 Maverick進行了專為LM Arena基準測試的微調,該模型的原始版本在同一測試中的表現遠不如微調版本。
鑑於AI基準測試,包括我們友好的寶可夢例子,本身就有些不穩定,這些自訂調整和非標準方法使得在模型上市時進行有意義的比較變得更加困難。看來,要將蘋果與蘋果進行比較,正變得越來越困難。
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要
儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
¿De verdad comparan a los Pokémon en benchmarks de IA? 😂 Suena raro pero me intriga saber cómo lo hacen. ¿Le harán jugar al Pokémon Rojo/Fuego para ver cuántas medallas consigue sin que se pierda? Sería divertido si fuese así, aunque al final estos rankings a veces se sienten solo una guerra de marketing entre las grandes tecnológicas. ¡Quiero ver un torneo oficial de IA jugando! 🎮
Mais franchement, comparer des IA sur Pokémon ? 😂 C'est comme évaluer un chef étoilé sur sa capacité à faire des nuggets. Cette course aux benchmarks devient absurde – next step on va les tester sur Candy Crush ? En tout cas ça montre à quel point les labos cherchent désespérément des moyens originaux de se démarquer.
Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️
Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯





首頁






