Эксперты выделяют серьезные недостатки в краудсорсинговых тестах ИИ

Лаборатории ИИ всё чаще обращаются к платформам краудсорсингового бенчмаркинга, таким как Chatbot Arena, для оценки возможностей своих новейших моделей. Однако некоторые эксперты утверждают, что этот метод вызывает серьёзные этические и академические вопросы.
В последние годы крупные игроки, такие как OpenAI, Google и Meta, используют платформы, которые привлекают пользователей для оценки производительности их будущих моделей. Высокий балл на этих платформах часто подчёркивается лабораториями как свидетельство прогресса их модели. Однако этот подход не обходится без критики.
Критика краудсорсингового бенчмаркинга
Эмили Бендер, профессор лингвистики в Университете Вашингтона и соавтор книги "The AI Con", выразила обеспокоенность по поводу валидности таких бенчмарков, в частности Chatbot Arena. Эта платформа предполагает, что волонтёры сравнивают ответы двух анонимных моделей и выбирают предпочтительный. Бендер утверждает, что для эффективности бенчмарка он должен измерять что-то конкретное и демонстрировать конструктивную валидность, то есть измерение должно точно отражать оцениваемый конструкт. Она считает, что Chatbot Arena не имеет доказательств того, что предпочтение пользователей одного ответа над другим действительно коррелирует с какими-либо определёнными критериями.
Асмелаш Тека Хадгу, сооснователь компании Lesan, занимающейся ИИ, и сотрудник Института распределённых исследований ИИ, предполагает, что эти бенчмарки используются лабораториями ИИ для преувеличенных заявлений о своих моделях. Он упомянул недавний инцидент с моделью Llama 4 Maverick от Meta, где Meta оптимизировала версию для хороших результатов на Chatbot Arena, но решила выпустить менее эффективную версию. Хадгу выступает за то, чтобы бенчмарки были динамическими, распределёнными между несколькими независимыми организациями и адаптированными к конкретным случаям использования в таких областях, как образование и здравоохранение, профессионалами, которые применяют эти модели в своей работе.
Призыв к справедливой оплате и более широким методам оценки
Хадгу и Кристин Глория, бывший руководитель инициативы по новым и интеллектуальным технологиям Института Аспена, утверждают, что оценщики должны получать компенсацию за свою работу, проводя параллели с часто эксплуататорской индустрией маркировки данных. Глория считает краудсорсинговый бенчмаркинг ценным, подобно инициативам гражданской науки, но подчёркивает, что бенчмарки не должны быть единственным критерием оценки, особенно учитывая быстрый темп инноваций в отрасли.
Мэтт Фредриксон, генеральный директор Gray Swan AI, проводящей краудсорсинговые кампании по тестированию на уязвимости, признаёт привлекательность таких платформ для волонтёров, стремящихся изучать и практиковать новые навыки. Однако он подчёркивает, что публичные бенчмарки не могут заменить более глубокие оценки, предоставляемые платными частными экспертизами. Фредриксон предлагает, чтобы разработчики также полагались на внутренние бенчмарки, алгоритмические команды по тестированию уязвимостей и привлечённых экспертов, которые могут предложить более открытые и специфичные для домена выводы.
Взгляды индустрии на бенчмаркинг
Алекс Аталлах, генеральный директор модельного маркетплейса OpenRouter, и Вэй-Лин Чан, докторант по ИИ в Калифорнийском университете в Беркли и один из основателей LMArena (управляющей Chatbot Arena), согласны, что открытые тестирования и бенчмаркинг сами по себе недостаточны. Чан подчёркивает, что цель LMArena — предоставить надёжное, открытое пространство для оценки предпочтений сообщества относительно различных моделей ИИ.
Касаясь споров вокруг бенчмарка Maverick, Чан уточняет, что такие инциденты связаны не с недостатками в дизайне Chatbot Arena, а с неверной интерпретацией её политики лабораториями. LMArena с тех пор обновила свои правила, чтобы обеспечить справедливые и воспроизводимые оценки. Чан подчёркивает, что сообщество платформы — это не просто группа волонтёров или тестировщиков, а вовлечённая группа, которая предоставляет коллективную обратную связь по моделям ИИ.
Продолжающиеся дебаты вокруг использования платформ краудсорсингового бенчмаркинга подчёркивают необходимость более тонкого подхода к оценке моделей ИИ, сочетающего общественный вклад с тщательными профессиональными оценками для обеспечения точности и справедливости.
Связанная статья
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции
На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ
DeepSeek Code готовится к запуску
На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив
Рекомендации по связанным специальным темам
Комментарии (17)
這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

Лаборатории ИИ всё чаще обращаются к платформам краудсорсингового бенчмаркинга, таким как Chatbot Arena, для оценки возможностей своих новейших моделей. Однако некоторые эксперты утверждают, что этот метод вызывает серьёзные этические и академические вопросы.
В последние годы крупные игроки, такие как OpenAI, Google и Meta, используют платформы, которые привлекают пользователей для оценки производительности их будущих моделей. Высокий балл на этих платформах часто подчёркивается лабораториями как свидетельство прогресса их модели. Однако этот подход не обходится без критики.
Критика краудсорсингового бенчмаркинга
Эмили Бендер, профессор лингвистики в Университете Вашингтона и соавтор книги "The AI Con", выразила обеспокоенность по поводу валидности таких бенчмарков, в частности Chatbot Arena. Эта платформа предполагает, что волонтёры сравнивают ответы двух анонимных моделей и выбирают предпочтительный. Бендер утверждает, что для эффективности бенчмарка он должен измерять что-то конкретное и демонстрировать конструктивную валидность, то есть измерение должно точно отражать оцениваемый конструкт. Она считает, что Chatbot Arena не имеет доказательств того, что предпочтение пользователей одного ответа над другим действительно коррелирует с какими-либо определёнными критериями.
Асмелаш Тека Хадгу, сооснователь компании Lesan, занимающейся ИИ, и сотрудник Института распределённых исследований ИИ, предполагает, что эти бенчмарки используются лабораториями ИИ для преувеличенных заявлений о своих моделях. Он упомянул недавний инцидент с моделью Llama 4 Maverick от Meta, где Meta оптимизировала версию для хороших результатов на Chatbot Arena, но решила выпустить менее эффективную версию. Хадгу выступает за то, чтобы бенчмарки были динамическими, распределёнными между несколькими независимыми организациями и адаптированными к конкретным случаям использования в таких областях, как образование и здравоохранение, профессионалами, которые применяют эти модели в своей работе.
Призыв к справедливой оплате и более широким методам оценки
Хадгу и Кристин Глория, бывший руководитель инициативы по новым и интеллектуальным технологиям Института Аспена, утверждают, что оценщики должны получать компенсацию за свою работу, проводя параллели с часто эксплуататорской индустрией маркировки данных. Глория считает краудсорсинговый бенчмаркинг ценным, подобно инициативам гражданской науки, но подчёркивает, что бенчмарки не должны быть единственным критерием оценки, особенно учитывая быстрый темп инноваций в отрасли.
Мэтт Фредриксон, генеральный директор Gray Swan AI, проводящей краудсорсинговые кампании по тестированию на уязвимости, признаёт привлекательность таких платформ для волонтёров, стремящихся изучать и практиковать новые навыки. Однако он подчёркивает, что публичные бенчмарки не могут заменить более глубокие оценки, предоставляемые платными частными экспертизами. Фредриксон предлагает, чтобы разработчики также полагались на внутренние бенчмарки, алгоритмические команды по тестированию уязвимостей и привлечённых экспертов, которые могут предложить более открытые и специфичные для домена выводы.
Взгляды индустрии на бенчмаркинг
Алекс Аталлах, генеральный директор модельного маркетплейса OpenRouter, и Вэй-Лин Чан, докторант по ИИ в Калифорнийском университете в Беркли и один из основателей LMArena (управляющей Chatbot Arena), согласны, что открытые тестирования и бенчмаркинг сами по себе недостаточны. Чан подчёркивает, что цель LMArena — предоставить надёжное, открытое пространство для оценки предпочтений сообщества относительно различных моделей ИИ.
Касаясь споров вокруг бенчмарка Maverick, Чан уточняет, что такие инциденты связаны не с недостатками в дизайне Chatbot Arena, а с неверной интерпретацией её политики лабораториями. LMArena с тех пор обновила свои правила, чтобы обеспечить справедливые и воспроизводимые оценки. Чан подчёркивает, что сообщество платформы — это не просто группа волонтёров или тестировщиков, а вовлечённая группа, которая предоставляет коллективную обратную связь по моделям ИИ.
Продолжающиеся дебаты вокруг использования платформ краудсорсингового бенчмаркинга подчёркивают необходимость более тонкого подхода к оценке моделей ИИ, сочетающего общественный вклад с тщательными профессиональными оценками для обеспечения точности и справедливости.
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции
На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ
DeepSeek Code готовится к запуску
На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив
這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅





Дом






