首頁 消息 關於AI基準測試的辯論已達到神奇寶貝

關於AI基準測試的辯論已達到神奇寶貝

2025年05月03日
JonathanDavis
0

關於AI基準測試的辯論已達到神奇寶貝

即使是神奇寶貝的摯愛世界也不能免疫AI基準的戲劇。最近在X上的病毒帖子引起了轟動,聲稱Google的最新雙子座模特在經典的Pokémon視頻遊戲三部曲中超過了Anthropic的領先Claude模型。據《郵報》報導,雙子座在開發商的Twitch流中令人印象深刻地到達了薰衣草小鎮,而克勞德(Claude)截至2月下旬在穆特(Mount Moon)落後。

到達薰衣草小鎮後

119僅實時景觀順便說一句,被低估的流pic.twitter.com/8avsovai4x

- Jush(@jush21e8)2025年4月10日

但是,這篇文章方便遺漏的事實是,雙子座的優勢有些不公平。 Reddit上精明的用戶很快指出,Gemini Stream背後的開發人員製作了自定義的最小值。這種漂亮的工具有助於該模型識別遊戲中的“瓷磚”,例如可剪裁的樹,它大大減少了Gemini需要花費分析屏幕截圖之前的時間,然後才能決定下一步。

現在,儘管Pokémon可能不是最嚴重的AI基準,但它確實是一個有趣但有說服力的例子,說明不同的設置如何偏向這些測試的結果。以Anthropic的最新模型為Anthropic 3.7十四行詩。在旨在測試編碼能力的SWE基礎驗證的基準測試中,它的精度為62.3%。但是,憑藉“自定義腳手架”,人類的鞭打得以升高,得分躍升至70.3%。

而且它不止於此。梅塔(Meta)採用了其較新的模特之一,雅瑪4小牛(Llama 4 Maverick),並專門針對LM Arena Benchmark進行了微調。在同一測試中,該型號的香草版本幾乎不太好。

鑑於AI基準測試(包括我們友好的神奇寶貝示例)已經有點受到打擊,因此這些自定義的調整和非標準方法使得在模型上投入市場時進行有意義的比較變得更加棘手。似乎將蘋果與蘋果進行比較可能會越來越難。

相關文章
Top 10 AI Marketing Tools for April 2025 Top 10 AI Marketing Tools for April 2025 Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia's New Strategy to Manage AI Data Scraping Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's Bold Move in the Global AI Chip Race Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
評論 (0)
0/200
Back to Top
OR