Эксперты выделяют серьезные недостатки в краудсорсинговых тестах ИИ

Лаборатории ИИ всё чаще обращаются к платформам краудсорсингового бенчмаркинга, таким как Chatbot Arena, для оценки возможностей своих новейших моделей. Однако некоторые эксперты утверждают, что этот метод вызывает серьёзные этические и академические вопросы.
В последние годы крупные игроки, такие как OpenAI, Google и Meta, используют платформы, которые привлекают пользователей для оценки производительности их будущих моделей. Высокий балл на этих платформах часто подчёркивается лабораториями как свидетельство прогресса их модели. Однако этот подход не обходится без критики.
Критика краудсорсингового бенчмаркинга
Эмили Бендер, профессор лингвистики в Университете Вашингтона и соавтор книги "The AI Con", выразила обеспокоенность по поводу валидности таких бенчмарков, в частности Chatbot Arena. Эта платформа предполагает, что волонтёры сравнивают ответы двух анонимных моделей и выбирают предпочтительный. Бендер утверждает, что для эффективности бенчмарка он должен измерять что-то конкретное и демонстрировать конструктивную валидность, то есть измерение должно точно отражать оцениваемый конструкт. Она считает, что Chatbot Arena не имеет доказательств того, что предпочтение пользователей одного ответа над другим действительно коррелирует с какими-либо определёнными критериями.
Асмелаш Тека Хадгу, сооснователь компании Lesan, занимающейся ИИ, и сотрудник Института распределённых исследований ИИ, предполагает, что эти бенчмарки используются лабораториями ИИ для преувеличенных заявлений о своих моделях. Он упомянул недавний инцидент с моделью Llama 4 Maverick от Meta, где Meta оптимизировала версию для хороших результатов на Chatbot Arena, но решила выпустить менее эффективную версию. Хадгу выступает за то, чтобы бенчмарки были динамическими, распределёнными между несколькими независимыми организациями и адаптированными к конкретным случаям использования в таких областях, как образование и здравоохранение, профессионалами, которые применяют эти модели в своей работе.
Призыв к справедливой оплате и более широким методам оценки
Хадгу и Кристин Глория, бывший руководитель инициативы по новым и интеллектуальным технологиям Института Аспена, утверждают, что оценщики должны получать компенсацию за свою работу, проводя параллели с часто эксплуататорской индустрией маркировки данных. Глория считает краудсорсинговый бенчмаркинг ценным, подобно инициативам гражданской науки, но подчёркивает, что бенчмарки не должны быть единственным критерием оценки, особенно учитывая быстрый темп инноваций в отрасли.
Мэтт Фредриксон, генеральный директор Gray Swan AI, проводящей краудсорсинговые кампании по тестированию на уязвимости, признаёт привлекательность таких платформ для волонтёров, стремящихся изучать и практиковать новые навыки. Однако он подчёркивает, что публичные бенчмарки не могут заменить более глубокие оценки, предоставляемые платными частными экспертизами. Фредриксон предлагает, чтобы разработчики также полагались на внутренние бенчмарки, алгоритмические команды по тестированию уязвимостей и привлечённых экспертов, которые могут предложить более открытые и специфичные для домена выводы.
Взгляды индустрии на бенчмаркинг
Алекс Аталлах, генеральный директор модельного маркетплейса OpenRouter, и Вэй-Лин Чан, докторант по ИИ в Калифорнийском университете в Беркли и один из основателей LMArena (управляющей Chatbot Arena), согласны, что открытые тестирования и бенчмаркинг сами по себе недостаточны. Чан подчёркивает, что цель LMArena — предоставить надёжное, открытое пространство для оценки предпочтений сообщества относительно различных моделей ИИ.
Касаясь споров вокруг бенчмарка Maverick, Чан уточняет, что такие инциденты связаны не с недостатками в дизайне Chatbot Arena, а с неверной интерпретацией её политики лабораториями. LMArena с тех пор обновила свои правила, чтобы обеспечить справедливые и воспроизводимые оценки. Чан подчёркивает, что сообщество платформы — это не просто группа волонтёров или тестировщиков, а вовлечённая группа, которая предоставляет коллективную обратную связь по моделям ИИ.
Продолжающиеся дебаты вокруг использования платформ краудсорсингового бенчмаркинга подчёркивают необходимость более тонкого подхода к оценке моделей ИИ, сочетающего общественный вклад с тщательными профессиональными оценками для обеспечения точности и справедливости.
Связанная статья
Создание раскрасок с использованием ИИ: Полное руководство
Создание раскрасок — это увлекательное занятие, сочетающее художественное выражение с успокаивающим опытом для пользователей. Однако процесс может быть трудоемким. К счастью, инструменты ИИ упрощают с
Qodo сотрудничает с Google Cloud для предоставления бесплатных инструментов AI для проверки кода разработчикам
Qodo, израильский стартап в области AI-кодирования, ориентированный на качество кода, начал сотрудничество с Google Cloud для повышения целостности программного обеспечения, созданного AI.По мере рост
DeepMind's AI Secures Gold at 2025 Math Olympiad
ИИ DeepMind достиг потрясающего прорыва в математическом мышлении, завоевав золотую медаль на Международной математической олимпиаде (IMO) 2025 года, всего через год после получения серебра в 2024 год
Комментарии (16)
AlbertScott
1 августа 2025 г., 16:47:34 GMT+03:00
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
0
JonathanAllen
27 апреля 2025 г., 10:34:07 GMT+03:00
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
0
AlbertWalker
27 апреля 2025 г., 8:24:31 GMT+03:00
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
0
RogerRodriguez
27 апреля 2025 г., 6:52:29 GMT+03:00
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅
0
JonathanAllen
27 апреля 2025 г., 4:40:09 GMT+03:00
Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐
0
BrianWalker
26 апреля 2025 г., 18:31:56 GMT+03:00
Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!
0
Лаборатории ИИ всё чаще обращаются к платформам краудсорсингового бенчмаркинга, таким как Chatbot Arena, для оценки возможностей своих новейших моделей. Однако некоторые эксперты утверждают, что этот метод вызывает серьёзные этические и академические вопросы.
В последние годы крупные игроки, такие как OpenAI, Google и Meta, используют платформы, которые привлекают пользователей для оценки производительности их будущих моделей. Высокий балл на этих платформах часто подчёркивается лабораториями как свидетельство прогресса их модели. Однако этот подход не обходится без критики.
Критика краудсорсингового бенчмаркинга
Эмили Бендер, профессор лингвистики в Университете Вашингтона и соавтор книги "The AI Con", выразила обеспокоенность по поводу валидности таких бенчмарков, в частности Chatbot Arena. Эта платформа предполагает, что волонтёры сравнивают ответы двух анонимных моделей и выбирают предпочтительный. Бендер утверждает, что для эффективности бенчмарка он должен измерять что-то конкретное и демонстрировать конструктивную валидность, то есть измерение должно точно отражать оцениваемый конструкт. Она считает, что Chatbot Arena не имеет доказательств того, что предпочтение пользователей одного ответа над другим действительно коррелирует с какими-либо определёнными критериями.
Асмелаш Тека Хадгу, сооснователь компании Lesan, занимающейся ИИ, и сотрудник Института распределённых исследований ИИ, предполагает, что эти бенчмарки используются лабораториями ИИ для преувеличенных заявлений о своих моделях. Он упомянул недавний инцидент с моделью Llama 4 Maverick от Meta, где Meta оптимизировала версию для хороших результатов на Chatbot Arena, но решила выпустить менее эффективную версию. Хадгу выступает за то, чтобы бенчмарки были динамическими, распределёнными между несколькими независимыми организациями и адаптированными к конкретным случаям использования в таких областях, как образование и здравоохранение, профессионалами, которые применяют эти модели в своей работе.
Призыв к справедливой оплате и более широким методам оценки
Хадгу и Кристин Глория, бывший руководитель инициативы по новым и интеллектуальным технологиям Института Аспена, утверждают, что оценщики должны получать компенсацию за свою работу, проводя параллели с часто эксплуататорской индустрией маркировки данных. Глория считает краудсорсинговый бенчмаркинг ценным, подобно инициативам гражданской науки, но подчёркивает, что бенчмарки не должны быть единственным критерием оценки, особенно учитывая быстрый темп инноваций в отрасли.
Мэтт Фредриксон, генеральный директор Gray Swan AI, проводящей краудсорсинговые кампании по тестированию на уязвимости, признаёт привлекательность таких платформ для волонтёров, стремящихся изучать и практиковать новые навыки. Однако он подчёркивает, что публичные бенчмарки не могут заменить более глубокие оценки, предоставляемые платными частными экспертизами. Фредриксон предлагает, чтобы разработчики также полагались на внутренние бенчмарки, алгоритмические команды по тестированию уязвимостей и привлечённых экспертов, которые могут предложить более открытые и специфичные для домена выводы.
Взгляды индустрии на бенчмаркинг
Алекс Аталлах, генеральный директор модельного маркетплейса OpenRouter, и Вэй-Лин Чан, докторант по ИИ в Калифорнийском университете в Беркли и один из основателей LMArena (управляющей Chatbot Arena), согласны, что открытые тестирования и бенчмаркинг сами по себе недостаточны. Чан подчёркивает, что цель LMArena — предоставить надёжное, открытое пространство для оценки предпочтений сообщества относительно различных моделей ИИ.
Касаясь споров вокруг бенчмарка Maverick, Чан уточняет, что такие инциденты связаны не с недостатками в дизайне Chatbot Arena, а с неверной интерпретацией её политики лабораториями. LMArena с тех пор обновила свои правила, чтобы обеспечить справедливые и воспроизводимые оценки. Чан подчёркивает, что сообщество платформы — это не просто группа волонтёров или тестировщиков, а вовлечённая группа, которая предоставляет коллективную обратную связь по моделям ИИ.
Продолжающиеся дебаты вокруг использования платформ краудсорсингового бенчмаркинга подчёркивают необходимость более тонкого подхода к оценке моделей ИИ, сочетающего общественный вклад с тщательными профессиональными оценками для обеспечения точности и справедливости.



Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?




Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅




Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀




I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅




Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐




Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!












