选项
首页
新闻
专家强调了众包AI基准的严重缺陷

专家强调了众包AI基准的严重缺陷

2025-04-25
164

专家强调了众包AI基准的严重缺陷

人工智能实验室日益倾向于使用众包基准测试平台,如Chatbot Arena,来评估其最新模型的能力。然而,一些专家认为这种方法引发了重大的伦理和学术问题。

近年来,像OpenAI、Google和Meta这样的主要参与者利用这些平台,让用户评估即将推出的模型性能。在这些平台上的高分常常被实验室用来证明其模型的进步。然而,这种方法并非没有批评者。

对众包基准测试的批评

华盛顿大学语言学教授、合著《The AI Con》的Emily Bender对这类基准测试的有效性表示担忧,特别是Chatbot Arena。该平台让志愿者比较两个匿名模型的响应,并选择他们更喜欢的一个。Bender认为,一个有效的基准测试必须测量具体的内容,并展示结构效度,即测量应准确反映被评估的结构。她指出,Chatbot Arena缺乏证据证明用户对某个输出的偏好与任何定义的标准真正相关。

人工智能公司Lesan的联合创始人、分布式人工智能研究所研究员Asmelash Teka Hadgu表示,这些基准测试被人工智能实验室用来夸大其模型的声明。他提到最近Meta的Llama 4 Maverick模型事件,Meta微调了一个在Chatbot Arena表现良好的版本,但选择了发布一个效果较差的版本。Hadgu主张基准测试应是动态的,分布在多个独立实体中,并由使用这些模型的专业人士针对教育和医疗等领域的具体用例进行定制。

对公平报酬和更广泛评估方法的要求

Hadgu和阿斯彭研究所新兴与智能技术倡议前负责人Kristine Gloria认为,评估者应为其工作获得报酬,这与常常具有剥削性的数据标注行业类似。Gloria认为众包基准测试有价值,类似于公民科学倡议,但强调基准测试不应是评估的唯一指标,尤其是在行业创新快速发展的背景下。

Gray Swan AI的首席执行官Matt Fredrikson,该公司进行众包红队测试活动,承认这些平台对希望学习和实践新技能的志愿者具有吸引力。然而,他强调公共基准测试无法取代付费私人评估提供的更深入评估。Fredrikson建议开发者还应依赖内部基准测试、算法红队以及聘请的专家,他们可以提供更开放和领域特定的见解。

行业对基准测试的看法

模型市场OpenRouter的首席执行官Alex Atallah和加州大学伯克利分校人工智能博士生、LMArena(管理Chatbot Arena)的创始人之一Wei-Lin Chiang认为,仅靠开放测试和基准测试是不够的。Chiang强调,LMArena的目标是为社区提供一个可信、开放的空间,以了解不同人工智能模型的社区偏好。

针对Maverick基准测试的争议,Chiang澄清此类事件并非由于Chatbot Arena设计上的缺陷,而是实验室对其政策的误解。LMArena此后更新了其政策,以确保公平和可重复的评估。Chiang强调,该平台的社区不仅仅是一群志愿者或测试者,而是一个提供人工智能模型集体反馈的参与群体。

围绕众包基准测试平台使用的持续争论凸显了对人工智能模型评估需要更细致的方法,结合公众输入和严格的专业评估,以确保准确性和公平性。

相关文章
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易 Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易 随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后
DeepSeek Code 即将发布 DeepSeek Code 即将发布 随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势? 马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势? 埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
相关专题推荐
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
评论 (17)
0/500
EricDavis
EricDavis 2026-05-20 00:00:14

這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔

AlbertScott
AlbertScott 2025-08-01 21:47:34

Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?

JonathanAllen
JonathanAllen 2025-04-27 15:34:07

Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅

AlbertWalker
AlbertWalker 2025-04-27 13:24:31

Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀

RogerRodriguez
RogerRodriguez 2025-04-27 11:52:29

I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

JonathanAllen
JonathanAllen 2025-04-27 09:40:09

Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐

OR