专家强调了众包AI基准的严重缺陷

人工智能实验室日益倾向于使用众包基准测试平台,如Chatbot Arena,来评估其最新模型的能力。然而,一些专家认为这种方法引发了重大的伦理和学术问题。
近年来,像OpenAI、Google和Meta这样的主要参与者利用这些平台,让用户评估即将推出的模型性能。在这些平台上的高分常常被实验室用来证明其模型的进步。然而,这种方法并非没有批评者。
对众包基准测试的批评
华盛顿大学语言学教授、合著《The AI Con》的Emily Bender对这类基准测试的有效性表示担忧,特别是Chatbot Arena。该平台让志愿者比较两个匿名模型的响应,并选择他们更喜欢的一个。Bender认为,一个有效的基准测试必须测量具体的内容,并展示结构效度,即测量应准确反映被评估的结构。她指出,Chatbot Arena缺乏证据证明用户对某个输出的偏好与任何定义的标准真正相关。
人工智能公司Lesan的联合创始人、分布式人工智能研究所研究员Asmelash Teka Hadgu表示,这些基准测试被人工智能实验室用来夸大其模型的声明。他提到最近Meta的Llama 4 Maverick模型事件,Meta微调了一个在Chatbot Arena表现良好的版本,但选择了发布一个效果较差的版本。Hadgu主张基准测试应是动态的,分布在多个独立实体中,并由使用这些模型的专业人士针对教育和医疗等领域的具体用例进行定制。
对公平报酬和更广泛评估方法的要求
Hadgu和阿斯彭研究所新兴与智能技术倡议前负责人Kristine Gloria认为,评估者应为其工作获得报酬,这与常常具有剥削性的数据标注行业类似。Gloria认为众包基准测试有价值,类似于公民科学倡议,但强调基准测试不应是评估的唯一指标,尤其是在行业创新快速发展的背景下。
Gray Swan AI的首席执行官Matt Fredrikson,该公司进行众包红队测试活动,承认这些平台对希望学习和实践新技能的志愿者具有吸引力。然而,他强调公共基准测试无法取代付费私人评估提供的更深入评估。Fredrikson建议开发者还应依赖内部基准测试、算法红队以及聘请的专家,他们可以提供更开放和领域特定的见解。
行业对基准测试的看法
模型市场OpenRouter的首席执行官Alex Atallah和加州大学伯克利分校人工智能博士生、LMArena(管理Chatbot Arena)的创始人之一Wei-Lin Chiang认为,仅靠开放测试和基准测试是不够的。Chiang强调,LMArena的目标是为社区提供一个可信、开放的空间,以了解不同人工智能模型的社区偏好。
针对Maverick基准测试的争议,Chiang澄清此类事件并非由于Chatbot Arena设计上的缺陷,而是实验室对其政策的误解。LMArena此后更新了其政策,以确保公平和可重复的评估。Chiang强调,该平台的社区不仅仅是一群志愿者或测试者,而是一个提供人工智能模型集体反馈的参与群体。
围绕众包基准测试平台使用的持续争论凸显了对人工智能模型评估需要更细致的方法,结合公众输入和严格的专业评估,以确保准确性和公平性。
相关文章
翡翠开藏大师》(Master Emerald Kaizo Nuzlocke):终极生存与策略指南
Emerald Kaizo 是有史以来最强大的神奇宝贝 ROM 黑客之一。虽然尝试运行 Nuzlocke 会使挑战成倍增加,但通过精心策划和战略执行,胜利仍然是可以实现的。这本权威指南提供了在硬核 Nuzlocke 规则下征服翡翠海藏的必备工具、经过实战检验的战术和深入的人工智能分析。准备好接受神奇宝贝高手的终极考验吧!基本策略收集关键工具:游戏文档、专门的 PKHeX(EK 版)和精确的伤害计算
人工智能驱动的求职信:期刊投稿专家指南
在当今竞争激烈的学术出版环境中,撰写一封有效的求职信是稿件能否被录用的关键。了解像 ChatGPT 这样的人工智能工具如何简化这一重要任务,帮助您撰写出精美、专业的信件,吸引期刊编辑的注意。我们的综合指南将逐步揭示优化投稿包、最大限度地提高发表成功率的策略。要点必要的研究准备:整理所有稿件细节和期刊规范。人工智能辅助起草:使用 ChatGPT 生成最初的求职信模板。个性化定制:完善人工智能输出,以
美国将因社交媒体法规制裁外国官员
美国站出来反对全球数字内容法规美国国务院本周针对欧洲的数字治理政策发出了尖锐的外交斥责,表明在网络平台控制权问题上的紧张局势正在升级。国务卿马可-卢比奥(Marco Rubio)公布了一项新的签证限制政策,该政策针对的是参与美国认为影响美国数字空间的过度审查的外国官员。新签证限制解释根据周三宣布的政策,美国将拒绝被认定正在执行影响美国受保护言论的海外内容法规的外国公民入境。卢比奥强调了两
评论 (16)
0/200
AlbertScott
2025-08-01 21:47:34
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
0
JonathanAllen
2025-04-27 15:34:07
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
0
AlbertWalker
2025-04-27 13:24:31
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
0
RogerRodriguez
2025-04-27 11:52:29
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅
0
JonathanAllen
2025-04-27 09:40:09
Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐
0
BrianWalker
2025-04-26 23:31:56
Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!
0
人工智能实验室日益倾向于使用众包基准测试平台,如Chatbot Arena,来评估其最新模型的能力。然而,一些专家认为这种方法引发了重大的伦理和学术问题。
近年来,像OpenAI、Google和Meta这样的主要参与者利用这些平台,让用户评估即将推出的模型性能。在这些平台上的高分常常被实验室用来证明其模型的进步。然而,这种方法并非没有批评者。
对众包基准测试的批评
华盛顿大学语言学教授、合著《The AI Con》的Emily Bender对这类基准测试的有效性表示担忧,特别是Chatbot Arena。该平台让志愿者比较两个匿名模型的响应,并选择他们更喜欢的一个。Bender认为,一个有效的基准测试必须测量具体的内容,并展示结构效度,即测量应准确反映被评估的结构。她指出,Chatbot Arena缺乏证据证明用户对某个输出的偏好与任何定义的标准真正相关。
人工智能公司Lesan的联合创始人、分布式人工智能研究所研究员Asmelash Teka Hadgu表示,这些基准测试被人工智能实验室用来夸大其模型的声明。他提到最近Meta的Llama 4 Maverick模型事件,Meta微调了一个在Chatbot Arena表现良好的版本,但选择了发布一个效果较差的版本。Hadgu主张基准测试应是动态的,分布在多个独立实体中,并由使用这些模型的专业人士针对教育和医疗等领域的具体用例进行定制。
对公平报酬和更广泛评估方法的要求
Hadgu和阿斯彭研究所新兴与智能技术倡议前负责人Kristine Gloria认为,评估者应为其工作获得报酬,这与常常具有剥削性的数据标注行业类似。Gloria认为众包基准测试有价值,类似于公民科学倡议,但强调基准测试不应是评估的唯一指标,尤其是在行业创新快速发展的背景下。
Gray Swan AI的首席执行官Matt Fredrikson,该公司进行众包红队测试活动,承认这些平台对希望学习和实践新技能的志愿者具有吸引力。然而,他强调公共基准测试无法取代付费私人评估提供的更深入评估。Fredrikson建议开发者还应依赖内部基准测试、算法红队以及聘请的专家,他们可以提供更开放和领域特定的见解。
行业对基准测试的看法
模型市场OpenRouter的首席执行官Alex Atallah和加州大学伯克利分校人工智能博士生、LMArena(管理Chatbot Arena)的创始人之一Wei-Lin Chiang认为,仅靠开放测试和基准测试是不够的。Chiang强调,LMArena的目标是为社区提供一个可信、开放的空间,以了解不同人工智能模型的社区偏好。
针对Maverick基准测试的争议,Chiang澄清此类事件并非由于Chatbot Arena设计上的缺陷,而是实验室对其政策的误解。LMArena此后更新了其政策,以确保公平和可重复的评估。Chiang强调,该平台的社区不仅仅是一群志愿者或测试者,而是一个提供人工智能模型集体反馈的参与群体。
围绕众包基准测试平台使用的持续争论凸显了对人工智能模型评估需要更细致的方法,结合公众输入和严格的专业评估,以确保准确性和公平性。




Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?




Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅




Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀




I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅




Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐




Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!












