Meta的AI模型基準:誤導性?

所以,Meta 在週末推出了他們的新 AI 模型 Maverick,它已經在 LM Arena 上掀起波瀾,奪得了第二名的位置。你知道的,那是個人類可以扮演法官與陪審團的地方,比較不同的 AI 模型並挑選他們的最愛。但是,等等,有個轉折!結果顯示,在 LM Arena 上展現風采的 Maverick 版本,與開發者可以下載並使用的版本並不完全相同。
一些在 X(是的,就是以前被稱為 Twitter 的平台)上的敏銳 AI 研究人員發現,Meta 將 LM Arena 上的版本稱為「實驗性聊天版本」。如果你偷瞄 Llama 網站,會看到一張圖表透露了真相,說測試是用「針對對話性優化的 Llama 4 Maverick」進行的。我們之前討論過這個,但 LM Arena 並不完全是衡量 AI 表現的黃金標準。大多數 AI 公司不會為了在這個測試中獲得更好成績而特意調整他們的模型——至少他們不會承認這一點。
問題在於,當你調整一個模型以在基準測試中表現出色,卻向公眾發布一個不同的「原版」版本時,開發者很難判斷這個模型在現實場景中的實際表現如何。而且,這有點誤導,對吧?基準測試雖然有其缺陷,但應該能清楚地展示一個模型在不同任務上的能力和局限性。
X 上的研究人員很快注意到,你可以下載的 Maverick 與 LM Arena 上的版本之間存在一些重大差異。Arena 版本似乎特別喜歡使用表情符號,而且愛給出冗長的回答。
好的,Llama 4 確實有點被過分誇大了,哈哈,這是什麼長篇大論的城市 pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025年4月6日
不知為何,Arena 中的 Llama 4 模型使用了更多的表情符號
在 together.ai 上,它看起來更好: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) 2025年4月6日
我們已經聯繫了 Meta 和運營 LM Arena 的 Chatbot Arena 團隊,看看他們對此有什麼說法。敬請期待!
相關文章
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能
資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以
相關專題推薦
評論 (37)
0/500
メタのAIベンチマークって怪しくない?🤔 人間が好みで評価するランダムなランキングより、実用的なテストの方が信用できると思う。結局ベンチマークゲームに夢中になる企業より、実際に役立つAIを作ってる会社の方が価値あるよね。 #AIベンチマーク
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔

所以,Meta 在週末推出了他們的新 AI 模型 Maverick,它已經在 LM Arena 上掀起波瀾,奪得了第二名的位置。你知道的,那是個人類可以扮演法官與陪審團的地方,比較不同的 AI 模型並挑選他們的最愛。但是,等等,有個轉折!結果顯示,在 LM Arena 上展現風采的 Maverick 版本,與開發者可以下載並使用的版本並不完全相同。
一些在 X(是的,就是以前被稱為 Twitter 的平台)上的敏銳 AI 研究人員發現,Meta 將 LM Arena 上的版本稱為「實驗性聊天版本」。如果你偷瞄 Llama 網站,會看到一張圖表透露了真相,說測試是用「針對對話性優化的 Llama 4 Maverick」進行的。我們之前討論過這個,但 LM Arena 並不完全是衡量 AI 表現的黃金標準。大多數 AI 公司不會為了在這個測試中獲得更好成績而特意調整他們的模型——至少他們不會承認這一點。
問題在於,當你調整一個模型以在基準測試中表現出色,卻向公眾發布一個不同的「原版」版本時,開發者很難判斷這個模型在現實場景中的實際表現如何。而且,這有點誤導,對吧?基準測試雖然有其缺陷,但應該能清楚地展示一個模型在不同任務上的能力和局限性。
X 上的研究人員很快注意到,你可以下載的 Maverick 與 LM Arena 上的版本之間存在一些重大差異。Arena 版本似乎特別喜歡使用表情符號,而且愛給出冗長的回答。
好的,Llama 4 確實有點被過分誇大了,哈哈,這是什麼長篇大論的城市 pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025年4月6日
不知為何,Arena 中的 Llama 4 模型使用了更多的表情符號
— Tech Dev Notes (@techdevnotes) 2025年4月6日
在 together.ai 上,它看起來更好: pic.twitter.com/f74ODX4zTt
我們已經聯繫了 Meta 和運營 LM Arena 的 Chatbot Arena 團隊,看看他們對此有什麼說法。敬請期待!
Meta AI 現已開始在 Facebook Marketplace 上回覆買家的訊息
Facebook Marketplace 推出新的 Meta AI 功能,包括針對買家詢問的自動回覆,該公司於週四宣布。該平台還運用 AI 來加速商品上架、摘要賣家檔案,並現在允許賣家在商品列表中提供運送服務。由於賣家經常收到大量買家詢問,Facebook 正透過 Meta AI 驅動的自動回覆功能來簡化此流程。當買家詢問商品庫存狀況時,賣家可利用 Meta AI 根據商品資訊(如描述、庫存狀況、
Meta 簽署協議,採購數百萬顆亞馬遜 AI 處理器
亞馬遜已與 Meta 達成一項重要合作,再次仰賴其自行設計的晶片。亞馬遜週五證實,Meta 已同意部署數百萬顆 AWS Graviton 晶片,以滿足其日益增長的人工智慧需求。請注意,AWS Graviton 是一款基於 ARM 架構的 CPU(中央處理器,專為通用運算設計),而非 GPU(圖形處理器)。雖然 GPU 仍是訓練大型模型的首選晶片,但一旦模型訓練完成,基於這些模型建構的 AI 代理程
Meta 的天然氣需求激增可能為南達科他州的電力網注入動能
資料中心的規模已膨脹至如此之大,其用電量如今已與美國整個州的用電量相當。以 Meta 的 Hyperion AI 資料中心為例:一旦完工,其用電量將與南達科他州相當。Meta最近宣布,除了已規劃的三座天然氣發電廠外,將再投資興建七座,以支援其耗資270億美元的資料中心。這十座位於路易斯安那州的發電廠合計將產生約7.5吉瓦的電力——略高於南達科他州全州的總發電量。與許多科技公司一樣,Meta 長期以
メタのAIベンチマークって怪しくない?🤔 人間が好みで評価するランダムなランキングより、実用的なテストの方が信用できると思う。結局ベンチマークゲームに夢中になる企業より、実際に役立つAIを作ってる会社の方が価値あるよね。 #AIベンチマーク
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔





首頁






