Meta的AI模型基準:誤導性?

所以,Meta 在週末推出了他們的新 AI 模型 Maverick,它已經在 LM Arena 上掀起波瀾,奪得了第二名的位置。你知道的,那是個人類可以扮演法官與陪審團的地方,比較不同的 AI 模型並挑選他們的最愛。但是,等等,有個轉折!結果顯示,在 LM Arena 上展現風采的 Maverick 版本,與開發者可以下載並使用的版本並不完全相同。
一些在 X(是的,就是以前被稱為 Twitter 的平台)上的敏銳 AI 研究人員發現,Meta 將 LM Arena 上的版本稱為「實驗性聊天版本」。如果你偷瞄 Llama 網站,會看到一張圖表透露了真相,說測試是用「針對對話性優化的 Llama 4 Maverick」進行的。我們之前討論過這個,但 LM Arena 並不完全是衡量 AI 表現的黃金標準。大多數 AI 公司不會為了在這個測試中獲得更好成績而特意調整他們的模型——至少他們不會承認這一點。
問題在於,當你調整一個模型以在基準測試中表現出色,卻向公眾發布一個不同的「原版」版本時,開發者很難判斷這個模型在現實場景中的實際表現如何。而且,這有點誤導,對吧?基準測試雖然有其缺陷,但應該能清楚地展示一個模型在不同任務上的能力和局限性。
X 上的研究人員很快注意到,你可以下載的 Maverick 與 LM Arena 上的版本之間存在一些重大差異。Arena 版本似乎特別喜歡使用表情符號,而且愛給出冗長的回答。
好的,Llama 4 確實有點被過分誇大了,哈哈,這是什麼長篇大論的城市 pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025年4月6日
不知為何,Arena 中的 Llama 4 模型使用了更多的表情符號
在 together.ai 上,它看起來更好: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) 2025年4月6日
我們已經聯繫了 Meta 和運營 LM Arena 的 Chatbot Arena 團隊,看看他們對此有什麼說法。敬請期待!
相關文章
Meta為AI人才提供高薪,否認1億美元簽約獎金
Meta以數百萬美元的薪酬套餐吸引AI研究人員加入其新超級智能實驗室。然而,一位受聘研究員及洩露的內部會議內容顯示,1億美元「簽約獎金」的說法不實。據The Verge週四報導,在一場洩露的公司全體會議中,Meta高管回應了關於OpenAI執行長Sam Altman聲稱Meta向頂尖研究員提供獎金的問題。Meta技術長Andrew Bosworth表示,只有極少數高級領導可能獲得如此高額報酬,但澄
Meta增強AI安全以先進Llama工具
Meta已發布全新Llama安全工具,以強化AI開發並防範新興威脅。這些升級的Llama AI模型安全工具與Meta的新資源搭配,旨在賦能網路安全團隊利用AI進行防禦,提升所有AI利益相關者的安全性。使用Llama模型的開發者現可直接在Meta的Llama Protections頁面、Hugging Face及GitHub上獲得增強工具。Llama Guard 4引入多模態功能,支持文字與圖像的安
Meta加強打擊Facebook上非原創內容
週一,Meta公佈了更嚴格的措施,以處理在Facebook上發布非原創內容的帳戶,目標鎖定那些反覆重用他人文字、圖片或影片的帳戶。該公司報告稱,今年已移除約1000萬個冒充知名內容創作者的個人資料。此外,Meta已處理50萬個涉及垃圾行為或虛假互動的帳戶,採取措施如降低評論優先級和限制內容分發,以阻礙其盈利努力。此舉是在YouTube更新其關於非原創內容的政策後不久,特別是針對大量生產或重複的影片
評論 (36)
0/200
ScottWalker
2025-07-28 09:20:54
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
0
KennethMartin
2025-04-21 18:14:21
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
0
WalterThomas
2025-04-21 10:55:14
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
0
JohnYoung
2025-04-18 23:03:42
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔
0
JohnHernández
2025-04-18 00:58:48
Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀
0
MarkScott
2025-04-17 13:54:17
Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀
0
所以,Meta 在週末推出了他們的新 AI 模型 Maverick,它已經在 LM Arena 上掀起波瀾,奪得了第二名的位置。你知道的,那是個人類可以扮演法官與陪審團的地方,比較不同的 AI 模型並挑選他們的最愛。但是,等等,有個轉折!結果顯示,在 LM Arena 上展現風采的 Maverick 版本,與開發者可以下載並使用的版本並不完全相同。
一些在 X(是的,就是以前被稱為 Twitter 的平台)上的敏銳 AI 研究人員發現,Meta 將 LM Arena 上的版本稱為「實驗性聊天版本」。如果你偷瞄 Llama 網站,會看到一張圖表透露了真相,說測試是用「針對對話性優化的 Llama 4 Maverick」進行的。我們之前討論過這個,但 LM Arena 並不完全是衡量 AI 表現的黃金標準。大多數 AI 公司不會為了在這個測試中獲得更好成績而特意調整他們的模型——至少他們不會承認這一點。
問題在於,當你調整一個模型以在基準測試中表現出色,卻向公眾發布一個不同的「原版」版本時,開發者很難判斷這個模型在現實場景中的實際表現如何。而且,這有點誤導,對吧?基準測試雖然有其缺陷,但應該能清楚地展示一個模型在不同任務上的能力和局限性。
X 上的研究人員很快注意到,你可以下載的 Maverick 與 LM Arena 上的版本之間存在一些重大差異。Arena 版本似乎特別喜歡使用表情符號,而且愛給出冗長的回答。
好的,Llama 4 確實有點被過分誇大了,哈哈,這是什麼長篇大論的城市 pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025年4月6日
不知為何,Arena 中的 Llama 4 模型使用了更多的表情符號
— Tech Dev Notes (@techdevnotes) 2025年4月6日
在 together.ai 上,它看起來更好: pic.twitter.com/f74ODX4zTt
我們已經聯繫了 Meta 和運營 LM Arena 的 Chatbot Arena 團隊,看看他們對此有什麼說法。敬請期待!



Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?




Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!




मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!




메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔




Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀




Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀












