專家強調了眾包AI基準的嚴重缺陷

首頁

新聞

專家強調了眾包AI基準的嚴重缺陷

2025-04-25

JamesWalker

專家強調了眾包AI基準的嚴重缺陷

AI實驗室日益轉向眾包基準平台，如Chatbot Arena，以評估其最新模型的能力。然而，一些專家認為此方法引發重大倫理與學術問題。

近年來，OpenAI、Google和Meta等主要業者已利用平台讓用戶評估其即將推出的模型表現。在這些平台上的高分常被實驗室用來證明其模型的進步。然而，此方法並非無人批評。

眾包基準的批評

華盛頓大學語言學教授、《The AI Con》合著者Emily Bender對此類基準的有效性表示擔憂，特別是Chatbot Arena。此平台讓志願者比較兩個匿名模型的回應並選擇偏好。Bender認為，一個有效的基準必須測量特定內容並展示結構效度，意即測量應準確反映被評估的結構。她認為Chatbot Arena缺乏證據證明用戶對某輸出的偏好與任何定義標準真正相關。

AI公司Lesan聯合創始人、Distributed AI Research Institute研究員Asmelash Teka Hadgu表示，這些基準被AI實驗室用來誇大其模型的聲稱。他提到Meta的Llama 4 Maverick模型近期事件，Meta微調版本以在Chatbot Arena表現出色，但選擇發布較低效版本。Hadgu主張基準應動態、分散於多個獨立實體，並由教育、醫療等領域使用模型的專業人士為特定用途量身定制。

公平報酬與更廣泛評估方法的呼聲

Hadgu與Aspen Institute新興與智能技術倡議前負責人Kristine Gloria認為，評估者應因其工作獲得報酬，類比於常具剝削性的數據標籤行業。Gloria認為眾包基準有價值，類似公民科學計畫，但強調基準不應是唯一評估標準，尤其考慮到行業創新的快速步伐。

Gray Swan AI執行長Matt Fredrikson，負責眾包紅隊活動，認同此類平台對志願者學習與練習新技能的吸引力。但他強調，公開基準無法取代付費私人評估的深入分析。Fredrikson建議開發者應依賴內部基準、算法紅隊及聘請專家，提供更開放與領域特定的見解。

業界對基準的看法

模型市場OpenRouter執行長Alex Atallah與加州大學伯克利分校AI博士生、LMArena（管理Chatbot Arena）創始人之一Wei-Lin Chiang同意，僅靠公開測試與基準不足。Chiang強調，LMArena的目標是提供可信、開放的空間，以衡量社群對不同AI模型的偏好。

針對Maverick基準爭議，Chiang澄清此類事件非因Chatbot Arena設計缺陷，而是實驗室對其政策的誤解。LMArena已更新政策，確保公平與可重現的評估。Chiang強調，該平台社群不僅是志願者或測試者，而是一個提供AI模型集體反饋的參與群體。

關於眾包基準平台使用的持續爭論，凸顯需更細緻的AI模型評估方法，結合公開意見與嚴謹專業評估，確保準確與公平。

Qodo與Google Cloud合作為開發者提供免費AI程式碼審查工具 Qodo，一家專注於程式碼品質的以色列AI編碼新創公司，與Google Cloud合作推出夥伴關係，以提升AI生成軟體的完整性。隨著企業越來越依賴AI進行編碼，對強大監督和品質保證工具的需求日益增長。Qodo執行長Itamar Friedman指出，AI生成程式碼現已成為現代開發的核心。「想像一個未來，AI撰寫所有程式碼；人類無法全部審查，」Friedman說。「我們需要系統確保程式碼符合預期價值

DeepMind的AI在2025年數學奧林匹克奪金 DeepMind的AI在數學推理上實現驚人突破，在2025年國際數學奧林匹克（IMO）奪得金牌，僅一年後即從2024年的銀牌躍升。此突破凸顯AI在解決需要人類創意的複雜抽象問題上的成長實力。本文探討DeepMind的轉型歷程、關鍵技術進展及此里程碑的廣泛影響。國際數學奧林匹克的重要性自1959年起，國際數學奧林匹克一直是全球頂尖的高中生數學競賽。它以代數、幾何、數論及組合數學的六道複雜題目挑戰參賽

AI驅動的視差製作工具：打造動態2.5D動畫將靜態圖像轉化為引人入勝的2.5D動畫，使用Parallax Maker。此開源工具賦予藝術家和遊戲開發者為其作品注入深度與動態的能力。透過利用Stability AI API，Parallax Maker確保即使在普通硬體上也能實現流暢的工作流程。探索此工具的功能以及如何提升您的創意項目。主要亮點Parallax Maker是一個用於製作2.5D動畫的開源解決方案。它將圖像轉化為與Blender

評論 (16)

0/200

提交

AlbertScott

2025-08-01 21:47:34

Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?

JonathanAllen

2025-04-27 15:34:07

Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅

AlbertWalker

2025-04-27 13:24:31

Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀

RogerRodriguez

2025-04-27 11:52:29

I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

JonathanAllen

2025-04-27 09:40:09

Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐

BrianWalker

2025-04-26 23:31:56

Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!

頭號新聞

Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 2025頂級AI影片生成器：Pika Labs與其他對比 AI配音：真實聲音創作終極指南 Openai增強了AI語音助手以進行更好的聊天如何確保您的數據值得信賴AI集成 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查對美國數據中心的調整可以解鎖76 GW的新電源容量 Cambium的AI將垃圾木頭變成木材創始人說 Google利用AI暫停了超過3900萬的廣告帳戶，以涉嫌欺詐

精選