專家強調了眾包AI基準的嚴重缺陷

AI實驗室日益轉向眾包基準平台,如Chatbot Arena,以評估其最新模型的能力。然而,一些專家認為此方法引發重大倫理與學術問題。
近年來,OpenAI、Google和Meta等主要業者已利用平台讓用戶評估其即將推出的模型表現。在這些平台上的高分常被實驗室用來證明其模型的進步。然而,此方法並非無人批評。
眾包基準的批評
華盛頓大學語言學教授、《The AI Con》合著者Emily Bender對此類基準的有效性表示擔憂,特別是Chatbot Arena。此平台讓志願者比較兩個匿名模型的回應並選擇偏好。Bender認為,一個有效的基準必須測量特定內容並展示結構效度,意即測量應準確反映被評估的結構。她認為Chatbot Arena缺乏證據證明用戶對某輸出的偏好與任何定義標準真正相關。
AI公司Lesan聯合創始人、Distributed AI Research Institute研究員Asmelash Teka Hadgu表示,這些基準被AI實驗室用來誇大其模型的聲稱。他提到Meta的Llama 4 Maverick模型近期事件,Meta微調版本以在Chatbot Arena表現出色,但選擇發布較低效版本。Hadgu主張基準應動態、分散於多個獨立實體,並由教育、醫療等領域使用模型的專業人士為特定用途量身定制。
公平報酬與更廣泛評估方法的呼聲
Hadgu與Aspen Institute新興與智能技術倡議前負責人Kristine Gloria認為,評估者應因其工作獲得報酬,類比於常具剝削性的數據標籤行業。Gloria認為眾包基準有價值,類似公民科學計畫,但強調基準不應是唯一評估標準,尤其考慮到行業創新的快速步伐。
Gray Swan AI執行長Matt Fredrikson,負責眾包紅隊活動,認同此類平台對志願者學習與練習新技能的吸引力。但他強調,公開基準無法取代付費私人評估的深入分析。Fredrikson建議開發者應依賴內部基準、算法紅隊及聘請專家,提供更開放與領域特定的見解。
業界對基準的看法
模型市場OpenRouter執行長Alex Atallah與加州大學伯克利分校AI博士生、LMArena(管理Chatbot Arena)創始人之一Wei-Lin Chiang同意,僅靠公開測試與基準不足。Chiang強調,LMArena的目標是提供可信、開放的空間,以衡量社群對不同AI模型的偏好。
針對Maverick基準爭議,Chiang澄清此類事件非因Chatbot Arena設計缺陷,而是實驗室對其政策的誤解。LMArena已更新政策,確保公平與可重現的評估。Chiang強調,該平台社群不僅是志願者或測試者,而是一個提供AI模型集體反饋的參與群體。
關於眾包基準平台使用的持續爭論,凸顯需更細緻的AI模型評估方法,結合公開意見與嚴謹專業評估,確保準確與公平。
相關文章
Topaz DeNoise AI:2025 年最佳降噪工具 - 完整指南
在競爭激烈的數位攝影世界中,影像的清晰度仍然是最重要的。各種技術層級的攝影師都要面對數位雜訊的問題,這些雜訊會影響原本優異的拍攝效果。Topaz DeNoise AI 是最先進的解決方案,利用人工智慧來降低雜訊,同時保留關鍵細節。本深入評論將探討此創新軟體如何在 2025 年改變您的攝影工作流程,並檢視其主要功能、實用應用與工作流程整合。重點Topaz DeNoise AI 利用人工智慧有效消除影
Master Emerald Kaizo Nuzlocke:終極生存與策略指南
Emerald Kaizo 是有史以來最強大的 Pokémon ROM hacks 之一。雖然嘗試執行 Nuzlocke 會使挑戰成倍增加,但透過縝密的規劃和策略執行,勝利仍然是可以實現的。這本權威指南提供在 Hardcore Nuzlocke 規則下征服 Emerald Kaizo 的必要工具、經過實戰考驗的戰術以及深入的 AI 分析。準備好迎接 Pokémon 精通的終極考驗吧!基本策略收集關
AI Powered Cover Letters:期刊投稿專家指南
在現今競爭激烈的學術出版環境中,撰寫一封有效的求職信對您的稿件能否被接受起著舉足輕重的作用。探索像 ChatGPT 之類的人工智能工具如何簡化這項重要任務,幫助您撰寫出精緻、專業的求職信,吸引期刊編輯的注意。我們的全面指南揭示了逐步優化您的投稿包並最大化出版成功率的策略。重點必要的研究準備:彙整所有稿件細節和期刊規格。AI 輔助撰稿:使用 ChatGPT 生成初始求職信模板。個人客製化:完善 AI
評論 (16)
0/200
AlbertScott
2025-08-01 21:47:34
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
0
JonathanAllen
2025-04-27 15:34:07
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
0
AlbertWalker
2025-04-27 13:24:31
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
0
RogerRodriguez
2025-04-27 11:52:29
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅
0
JonathanAllen
2025-04-27 09:40:09
Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐
0
BrianWalker
2025-04-26 23:31:56
Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!
0
AI實驗室日益轉向眾包基準平台,如Chatbot Arena,以評估其最新模型的能力。然而,一些專家認為此方法引發重大倫理與學術問題。
近年來,OpenAI、Google和Meta等主要業者已利用平台讓用戶評估其即將推出的模型表現。在這些平台上的高分常被實驗室用來證明其模型的進步。然而,此方法並非無人批評。
眾包基準的批評
華盛頓大學語言學教授、《The AI Con》合著者Emily Bender對此類基準的有效性表示擔憂,特別是Chatbot Arena。此平台讓志願者比較兩個匿名模型的回應並選擇偏好。Bender認為,一個有效的基準必須測量特定內容並展示結構效度,意即測量應準確反映被評估的結構。她認為Chatbot Arena缺乏證據證明用戶對某輸出的偏好與任何定義標準真正相關。
AI公司Lesan聯合創始人、Distributed AI Research Institute研究員Asmelash Teka Hadgu表示,這些基準被AI實驗室用來誇大其模型的聲稱。他提到Meta的Llama 4 Maverick模型近期事件,Meta微調版本以在Chatbot Arena表現出色,但選擇發布較低效版本。Hadgu主張基準應動態、分散於多個獨立實體,並由教育、醫療等領域使用模型的專業人士為特定用途量身定制。
公平報酬與更廣泛評估方法的呼聲
Hadgu與Aspen Institute新興與智能技術倡議前負責人Kristine Gloria認為,評估者應因其工作獲得報酬,類比於常具剝削性的數據標籤行業。Gloria認為眾包基準有價值,類似公民科學計畫,但強調基準不應是唯一評估標準,尤其考慮到行業創新的快速步伐。
Gray Swan AI執行長Matt Fredrikson,負責眾包紅隊活動,認同此類平台對志願者學習與練習新技能的吸引力。但他強調,公開基準無法取代付費私人評估的深入分析。Fredrikson建議開發者應依賴內部基準、算法紅隊及聘請專家,提供更開放與領域特定的見解。
業界對基準的看法
模型市場OpenRouter執行長Alex Atallah與加州大學伯克利分校AI博士生、LMArena(管理Chatbot Arena)創始人之一Wei-Lin Chiang同意,僅靠公開測試與基準不足。Chiang強調,LMArena的目標是提供可信、開放的空間,以衡量社群對不同AI模型的偏好。
針對Maverick基準爭議,Chiang澄清此類事件非因Chatbot Arena設計缺陷,而是實驗室對其政策的誤解。LMArena已更新政策,確保公平與可重現的評估。Chiang強調,該平台社群不僅是志願者或測試者,而是一個提供AI模型集體反饋的參與群體。
關於眾包基準平台使用的持續爭論,凸顯需更細緻的AI模型評估方法,結合公開意見與嚴謹專業評估,確保準確與公平。




Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?




Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅




Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀




I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅




Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐




Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!












