選項
首頁
消息
關於AI基準測試的辯論已達到神奇寶貝

關於AI基準測試的辯論已達到神奇寶貝

2025-05-03
89

關於AI基準測試的辯論已達到神奇寶貝

即使是神奇寶貝的摯愛世界也不能免疫AI基準的戲劇。最近在X上的病毒帖子引起了轟動,聲稱Google的最新雙子座模特在經典的Pokémon視頻遊戲三部曲中超過了Anthropic的領先Claude模型。據《郵報》報導,雙子座在開發商的Twitch流中令人印象深刻地到達了薰衣草小鎮,而克勞德(Claude)截至2月下旬在穆特(Mount Moon)落後。

到達薰衣草小鎮後

119僅實時景觀順便說一句,被低估的流pic.twitter.com/8avsovai4x

- Jush(@jush21e8)2025年4月10日

但是,這篇文章方便遺漏的事實是,雙子座的優勢有些不公平。 Reddit上精明的用戶很快指出,Gemini Stream背後的開發人員製作了自定義的最小值。這種漂亮的工具有助於該模型識別遊戲中的“瓷磚”,例如可剪裁的樹,它大大減少了Gemini需要花費分析屏幕截圖之前的時間,然後才能決定下一步。

現在,儘管Pokémon可能不是最嚴重的AI基準,但它確實是一個有趣但有說服力的例子,說明不同的設置如何偏向這些測試的結果。以Anthropic的最新模型為Anthropic 3.7十四行詩。在旨在測試編碼能力的SWE基礎驗證的基準測試中,它的精度為62.3%。但是,憑藉“自定義腳手架”,人類的鞭打得以升高,得分躍升至70.3%。

而且它不止於此。梅塔(Meta)採用了其較新的模特之一,雅瑪4小牛(Llama 4 Maverick),並專門針對LM Arena Benchmark進行了微調。在同一測試中,該型號的香草版本幾乎不太好。

鑑於AI基準測試(包括我們友好的神奇寶貝示例)已經有點受到打擊,因此這些自定義的調整和非標準方法使得在模型上投入市場時進行有意義的比較變得更加棘手。似乎將蘋果與蘋果進行比較可能會越來越難。

相關文章
xAI đăng các lời nhắc hậu trường của Grok xAI đăng các lời nhắc hậu trường của Grok xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự
Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Các tỷ phú thảo luận về tự động hóa việc làm trong bản cập nhật AI tuần này Xin chào mọi người, chào mừng trở lại với bản tin AI của TechCrunch! Nếu bạn chưa đăng ký, bạn có thể đăng ký tại đây để nhận bản tin trực tiếp vào hộp thư đến của bạn mỗi thứ Tư.Chúng tôi đã tạm nghỉ
Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI Ứng dụng NotebookLM Ra mắt: Công cụ Tri thức AI NotebookLM Đã Có Mặt Trên Di Động: Trợ Lý Nghiên Cứu AI Giờ Đã Có Trên Android & iOS Phản hồi về NotebookLM đã vượt xa mong đợi—hàng triệu người dùng đã chọn nó làm công cụ kh
評論 (5)
0/200
JasonKing
JasonKing 2025-05-05 08:00:00

Debates over AI benchmarking in Pokémon? That's wild! I never thought I'd see the day when AI models are compared using Pokémon games. It's fun but kinda confusing. Can someone explain how Gemini outpaced Claude? 🤯

NicholasAdams
NicholasAdams 2025-05-05 08:00:00

ポケモンでAIのベンチマークを議論するなんて、信じられない!AIモデルがポケモンのゲームで比較される日が来るなんて思わなかった。面白いけど、ちょっと混乱する。ジェミニがクロードをどうやって追い越したのか、誰か説明してくれない?🤯

AlbertThomas
AlbertThomas 2025-05-04 08:00:00

포켓몬에서 AI 벤치마킹 논쟁이라니, 이건 정말 놀랍네요! AI 모델이 포켓몬 게임으로 비교될 날이 올 줄은 몰랐어요. 재미있지만 조금 헷갈려요. 제미니가 클로드를 어떻게 앞질렀는지 설명해줄 수 있는 분? 🤯

CharlesRoberts
CharlesRoberts 2025-05-04 08:00:00

Debates sobre benchmarking de IA em Pokémon? Isso é loucura! Nunca pensei que veria o dia em que modelos de IA seriam comparados usando jogos de Pokémon. É divertido, mas um pouco confuso. Alguém pode explicar como o Gemini superou o Claude? 🤯

WalterThomas
WalterThomas 2025-05-04 08:00:00

पोकेमॉन में AI बेंचमार्किंग पर बहस? यह तो पागलपन है! मुझे कभी नहीं लगा था कि मैं AI मॉडल्स को पोकेमॉन गेम्स का उपयोग करके तुलना करते हुए देखूंगा। यह मजेदार है लेकिन थोड़ा भ्रमित करने वाला है। कोई बता सकता है कि जेमिनी ने क्लॉड को कैसे पछाड़ा? 🤯

回到頂部
OR