專家強調了眾包AI基準的嚴重缺陷
2025年04月25日
JamesWalker
6
AI實驗室越來越多地轉向諸如Chatbot Arena之類的眾包基準平台,以評估其最新車型的功能。然而,一些專家認為這種方法引起了重大的道德和學術問題。
近年來,諸如OpenAI,Google和Meta之類的主要參與者使用了吸引用戶評估其即將到來的模型的性能的平台。實驗室通常會強調這些平台上的高分,以證明其模型的進步。但是,這種方法並非沒有批評者。
眾包基準測試的批評
華盛頓大學的語言學教授艾米莉·本德(Emily Bender),《 AI Con》的合著者,對這種基準的有效性(尤其是聊天機器人體育館)表示擔憂。該平台涉及志願者比較兩個匿名模型的響應並選擇其首選的響應。班德認為,要使基準有效,它必須測量特定的東西並證明構造有效性,這意味著測量應準確反映所評估的結構。她認為,聊天機器人競技場缺乏證據表明,用戶對一個輸出而不是另一個輸出的偏好與任何定義的標準真正相關。
AI公司Lesan的聯合創始人,分銷AI研究所的研究員Asmelash Teka Hadgu建議,AI Labs正在利用這些基準來對其模型提出誇張的主張。他列舉了最近與Meta的Llama 4 Maverick模型的事件,Meta對聊天機器人體育館的表現進行了微調,但選擇發布一個效率較低的版本。 Hadgu提倡基準是動態的,分佈在多個獨立實體上,並針對在工作中使用這些模型的專業人員等領域的特定用例量身定制。
呼籲獲得公平薪酬和更廣泛的評估方法
阿斯彭研究所(Aspen Institute)新興和智能技術倡議的前領導人Hadgu和Kristine Gloria認為,評估人員應獲得其工作的補償,這與經常剝削性的數據標記行業相似。格洛里亞(Gloria)認為眾包基準是有價值的,類似於公民科學計劃,但強調基準不應是評估的唯一指標,尤其是考慮到行業創新的迅速速度。
灰色天鵝AI的首席執行官馬特·弗雷德里克森(Matt Fredrikson)進行了眾包紅色的團隊活動,他承認了此類平台對尋求學習和練習新技能的志願者的吸引力。但是,他強調,公共基準不能替代付費私人評估提供的更深入的評估。弗雷德里克森(Fredrikson)建議,開發人員還應依靠內部基準,算法紅色團隊以及合同的專家,他們可以提供更多開放式和特定領域的見解。
行業對基準測試的觀點
Model Marketplace OpenRouter首席執行官Alex Atallah和UC Berkeley的AI博士生Wei-Lin Chiang,Lmarena的創始人之一(管理Chatbot Arena)的創始人之一,他同意僅開放測試和基準測試是不足的。 Chiang強調,LMARENA的目標是提供一個值得信賴的開放空間,以衡量社區對不同AI模型的偏好。
Chiang在解決特立克基準的爭議時澄清說,此類事件不是由於聊天機器人Arena設計中的缺陷,而是對實驗室對其政策的誤解。此後,LMARENA已更新其政策,以確保公平和可重複的評估。 Chiang強調了該平台的社區不僅是一組志願者或測試人員,而且是一個敬業的群體,可為AI模型提供集體反饋。

涉及眾包基準平台的持續辯論凸顯了對AI模型評估更細微的方法的需求,該方法將公眾的投入與嚴格的專業評估相結合,以確保准確性和公平性。
相關文章
人類推出計劃,用於研究AI“模型福利”
未來的AI會有意識嗎?未來AIS是否會以與人類相似的方式體驗世界的問題令人著迷,但仍未得到解答。儘管沒有明確的證據表明他們會,但AI實驗室人類人類並沒有完全駁斥這種可能性。週四,安德羅
蕾絲裙子趨勢:造型技巧和服裝的想法
蕾絲裙子已成為一種熱門趨勢,將大膽的邊緣與少量女性氣質融合在一起。這些以醒目的蕾絲細節而聞名的裙子是想要為衣櫃增添香料的時尚愛好者的首選。無論您是要發表戲劇性的陳述還是微妙的風格,
務實的AI:在發展中的熱情與懷疑之間取得平衡
在不斷發展的人工智能世界中,保持平衡的觀點對於在.NET和C#生態系統中工作的開發人員至關重要。儘管人工智能的潛力令人興奮,但一定的懷疑量確保了其實用有效的整合。本文務實
評論 (0)
0/200






AI實驗室越來越多地轉向諸如Chatbot Arena之類的眾包基準平台,以評估其最新車型的功能。然而,一些專家認為這種方法引起了重大的道德和學術問題。
近年來,諸如OpenAI,Google和Meta之類的主要參與者使用了吸引用戶評估其即將到來的模型的性能的平台。實驗室通常會強調這些平台上的高分,以證明其模型的進步。但是,這種方法並非沒有批評者。
眾包基準測試的批評
華盛頓大學的語言學教授艾米莉·本德(Emily Bender),《 AI Con》的合著者,對這種基準的有效性(尤其是聊天機器人體育館)表示擔憂。該平台涉及志願者比較兩個匿名模型的響應並選擇其首選的響應。班德認為,要使基準有效,它必須測量特定的東西並證明構造有效性,這意味著測量應準確反映所評估的結構。她認為,聊天機器人競技場缺乏證據表明,用戶對一個輸出而不是另一個輸出的偏好與任何定義的標準真正相關。
AI公司Lesan的聯合創始人,分銷AI研究所的研究員Asmelash Teka Hadgu建議,AI Labs正在利用這些基準來對其模型提出誇張的主張。他列舉了最近與Meta的Llama 4 Maverick模型的事件,Meta對聊天機器人體育館的表現進行了微調,但選擇發布一個效率較低的版本。 Hadgu提倡基準是動態的,分佈在多個獨立實體上,並針對在工作中使用這些模型的專業人員等領域的特定用例量身定制。
呼籲獲得公平薪酬和更廣泛的評估方法
阿斯彭研究所(Aspen Institute)新興和智能技術倡議的前領導人Hadgu和Kristine Gloria認為,評估人員應獲得其工作的補償,這與經常剝削性的數據標記行業相似。格洛里亞(Gloria)認為眾包基準是有價值的,類似於公民科學計劃,但強調基準不應是評估的唯一指標,尤其是考慮到行業創新的迅速速度。
灰色天鵝AI的首席執行官馬特·弗雷德里克森(Matt Fredrikson)進行了眾包紅色的團隊活動,他承認了此類平台對尋求學習和練習新技能的志願者的吸引力。但是,他強調,公共基準不能替代付費私人評估提供的更深入的評估。弗雷德里克森(Fredrikson)建議,開發人員還應依靠內部基準,算法紅色團隊以及合同的專家,他們可以提供更多開放式和特定領域的見解。
行業對基準測試的觀點
Model Marketplace OpenRouter首席執行官Alex Atallah和UC Berkeley的AI博士生Wei-Lin Chiang,Lmarena的創始人之一(管理Chatbot Arena)的創始人之一,他同意僅開放測試和基準測試是不足的。 Chiang強調,LMARENA的目標是提供一個值得信賴的開放空間,以衡量社區對不同AI模型的偏好。
Chiang在解決特立克基準的爭議時澄清說,此類事件不是由於聊天機器人Arena設計中的缺陷,而是對實驗室對其政策的誤解。此後,LMARENA已更新其政策,以確保公平和可重複的評估。 Chiang強調了該平台的社區不僅是一組志願者或測試人員,而且是一個敬業的群體,可為AI模型提供集體反饋。
涉及眾包基準平台的持續辯論凸顯了對AI模型評估更細微的方法的需求,該方法將公眾的投入與嚴格的專業評估相結合,以確保准確性和公平性。



恢復在線數據隱私的5個簡單步驟 - 從今天開始









