選項
首頁
新聞
關於AI基準測試的辯論已達到神奇寶貝

關於AI基準測試的辯論已達到神奇寶貝

2025-05-03
122

關於AI基準測試的辯論已達到神奇寶貝

即使是深受喜愛的寶可夢世界,也無法免於圍繞AI基準測試的爭議。近期在X上的一則病毒式貼文引起了相當大的熱議,聲稱Google的最新Gemini模型在經典寶可夢電玩三部曲中超越了Anthropic領先的Claude模型。根據該貼文,Gemini在一位開發者的Twitch直播中令人印象深刻地抵達了紫苑鎮,而Claude截至二月底仍落後於月見山。

Gemini目前在寶可夢中確實領先Claude,已抵達紫苑鎮

僅有119人觀看直播,實在是極其被低估的直播 pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) 2025年4月10日

然而,這則貼文刻意忽略了一個事實:Gemini擁有一定的優勢。Reddit上的敏銳用戶很快指出,Gemini直播背後的開發者打造了一個自訂的小地圖。這個巧妙的工具幫助模型識別遊戲中的「圖塊」,例如可砍伐的樹木,這顯著減少了Gemini在分析螢幕截圖並決定下一步行動所需的時間。

雖然寶可夢可能不是最嚴肅的AI基準測試,但它確實是一個有趣且具啟發性的例子,展示了不同設置如何影響這些測試的結果。以Anthropic的最新模型Anthropic 3.7 Sonnet為例,在旨在測試編碼能力的SWE-bench Verified基準測試中,其得分為62.3%的準確率。但在Anthropic打造的「自訂框架」下,該分數躍升至70.3%。

這還不只如此。Meta對其較新的模型Llama 4 Maverick進行了專為LM Arena基準測試的微調,該模型的原始版本在同一測試中的表現遠不如微調版本。

鑑於AI基準測試,包括我們友好的寶可夢例子,本身就有些不穩定,這些自訂調整和非標準方法使得在模型上市時進行有意義的比較變得更加困難。看來,要將蘋果與蘋果進行比較,正變得越來越困難。

相關文章
「Dot AI 伴侶應用程式宣布關閉,停止個人化服務」 「Dot AI 伴侶應用程式宣布關閉,停止個人化服務」 根據 Dot 開發商於週五發佈的公告,Dot 將停止營運。Dot 背後的新創公司 New Computer 在其網站上表示,這項服務將持續提供至 10 月 5 日,讓使用者有時間匯出個人資料。此應用程式於今年初由共同創辦人 Sam Whitmore 與前 Apple 設計專家 Jason Yuan 合作推出。Dot 進入日益受到關注的情感 AI 伴侶領域,將自己定位為可適應的數位朋友,可根據使用者
Anthropic 解決 AI 產生盜版書籍的法律案件 Anthropic 解決 AI 產生盜版書籍的法律案件 Anthropic 已與美國作家就一宗重大版權糾紛達成和解,同意擬議的集體訴訟和解方案,以避免可能耗費巨資的審判。該協議於本週二在法庭文件中提交,源於該人工智能公司使用盜版文學作品訓練其 Claude 模型的指控。雖然此案源於作家 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 的訴訟,但和解細節仍然保密。他們於 2023 年提出訴訟,指控
Figma 向所有用戶發佈 AI 驅動的應用程式生成工具 Figma 向所有用戶發佈 AI 驅動的應用程式生成工具 Figma Make 是今年初推出的創新提示應用程式開發平台,目前已正式退出測試版,並向所有使用者推出。這個突破性的工具加入了 Google 的 Gemini Code Assist 和 Microsoft 的 GitHub Copilot 等人工智能編碼助手的行列,讓創作者無需傳統的編程專業知識,即可將自然語言描述轉換為功能原型和應用程式。Figma Make 在測試階段原本只有高級「Full
評論 (6)
0/200
DouglasMartínez
DouglasMartínez 2025-08-07 01:01:00

Whoa, AI playing Pokémon? That's wild! I wonder if Gemini's got a secret Pikachu strategy or just brute-forced its way through. Gotta catch 'em all, I guess! ⚡️

JasonKing
JasonKing 2025-05-05 19:38:52

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025-05-05 07:11:33

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

WalterThomas
WalterThomas 2025-05-04 23:05:10

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

AlbertThomas
AlbertThomas 2025-05-04 14:38:28

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025-05-04 03:01:44

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

回到頂部
OR