Дом Новости Эксперты выделяют серьезные недостатки в краудсорсинговых тестах ИИ

Эксперты выделяют серьезные недостатки в краудсорсинговых тестах ИИ

25 апреля 2025 г.
JamesWalker
6

Лаборатории ИИ все чаще обращаются к краудсорсинговым бенчмаркинг -платформам, таким как Chatbot Arena, чтобы оценить возможности их последних моделей. Тем не менее, некоторые эксперты утверждают, что этот метод вызывает значительные этические и академические проблемы.

В последние годы такие крупные игроки, как Openai, Google и Meta, использовали платформы, которые привлекут пользователей к оценке производительности своих будущих моделей. Высокий балл на этих платформах часто подчеркивается лабораториями как свидетельство развития их модели. Однако этот подход не без критиков.

Критика краудсорсингового сравнительного анализа

Эмили Бендер, профессор лингвистики в Вашингтонском университете и соавтор «The Ai Con», выразила обеспокоенность по поводу обоснованности таких критериев, в частности, Chatbot Arena. В этой платформе добровольцы сравнивают ответы из двух анонимных моделей и выбирают их предпочтительный. Бендер утверждает, что для эффективного эталона он должен измерить что -то конкретное и продемонстрировать достоверность конструкции, что означает, что измерение должно точно отражать оцениваемой конструкцию. Она утверждает, что Chatbot Arena не имеет доказательств того, что пользовательские предпочтения для одного вывода по сравнению с другим действительно коррелируют с любыми определенными критериями.

Асмелаш Тека Хадгу, соучредитель фирмы ИИ Лесан и научный сотрудник Распределенного исследовательского института ИИ, предполагает, что этимии ИИ эксплуатируются этими эталонами, чтобы сделать преувеличенные заявления о своих моделях. Он процитировал недавний инцидент с моделью Meta Llama 4 Maverick, где Meta точно настроила версию, чтобы хорошо выступить на арене Chatbot, но вместо этого решил выпустить менее эффективную версию. Hadgu выступает за то, чтобы контрольные показатели были динамичными, распределенными по нескольким независимым организациям и адаптированы к конкретным вариантам использования в таких областях, как образование и здравоохранение, профессионалами, которые используют эти модели в своей работе.

Призыв к справедливой компенсации и более широким методам оценки

Хэдгу и Кристин Глория, бывший лидер инициативы эминтных и интеллектуальных технологий Института Аспена, утверждают, что оценщики должны быть компенсированы за свою работу, проводя параллели для часто эксплуатационной отрасли маркировки данных. Глория рассматривает краудсорсинговую оценку как ценную, сродни гражданским научным инициативам, но подчеркивает, что контрольные показатели не должны быть единственной метрикой для оценки, особенно с учетом быстрых темпов отраслевых инноваций.

Мэтт Фредриксон, генеральный директор Grey Swan Ai, который проводит краудсорсинговые командные кампании, признает привлекательность таких платформ для добровольцев, стремящихся учиться и практиковать новые навыки. Тем не менее, он подчеркивает, что публичные критерии не могут заменить более глубокие оценки, предоставленные платными, частными оценками. Фредриксон предполагает, что разработчики также должны полагаться на внутренние контрольные показатели, алгоритмические красные команды и контрактные эксперты, которые могут предложить более открытые и специфичные для домена идей.

Отраслевые перспективы на сравнение

Алекс Аталла, генеральный директор Model Marketplace OpenRouter, и Вей-линь Чиан, докторская студентка AI в Калифорнийском университете в Беркли и один из основателей Lmarena (который управляет Chatbot Arena), согласны с тем, что только открытые тестирование и сравнительное сравнение не хватает. Чианг подчеркивает, что цель LMARENA состоит в том, чтобы обеспечить надежное открытое пространство для измерения предпочтений сообщества о различных моделях ИИ.

Обращаясь к противоречиям вокруг эталона Маверика, Чан поясняет, что такие инциденты связаны не с недостатками в дизайне Chatbot Arena, а скорее неверно истолкованы ее политики лабораториями. С тех пор Lmarena обновила свою политику, чтобы обеспечить справедливые и воспроизводимые оценки. Чианг подчеркивает, что сообщество платформы является не просто группой добровольцев или тестеров, а привлекательной группой, которая предоставляет коллективную обратную связь по моделям искусственного интеллекта.

Call of Duty: Mobile- все рабочие коды выкупа январь 2025 г.

Продолжающиеся дебаты о использовании краудсорсинговых бенчмаркинг -платформ подчеркивают необходимость более нюансированного подхода к оценке модели искусственного интеллекта, который объединяет общественный вклад со строгими, профессиональными оценками, чтобы обеспечить как точность, так и справедливость.

Связанная статья
Программа «Антропические запуска» для изучения AI «Модельное благополучие» Программа «Антропические запуска» для изучения AI «Модельное благополучие» Может ли будущее быть сознательным? Вопрос о том, может ли будущее испытать мир таким же, как и людей, интригует, но остается в значительной степени без ответа. Несмотря на то, что нет определенных доказательств того, что они будут, лаборатория AI Anpropic не отклоняет возможность прямо. В четверг, Анто
Тенденции юбки кружев: Тенденции юбки кружев: Шнурные юбки стали горячим тенденцией, объединяя смелый край с чертой женственности. Эти юбки, известные своими привлекательными деталями кружева, являются любителями моды, которые хотят оживить свой гардероб. Готовы ли вы за драматическое заявление или тонкий намек на стиль, добравшись до GR
Прагматический ИИ: удаление баланса между энтузиазмом и скептицизмом в развитии Прагматический ИИ: удаление баланса между энтузиазмом и скептицизмом в развитии В постоянно развивающемся мире искусственного интеллекта поддержание сбалансированной перспективы имеет важное значение для разработчиков, работающих в экосистеме .NET и C#. Хотя потенциал ИИ захватывает, доза скептицизма гарантирует его практическую и эффективную интеграцию. Эта статья принимает прагматический
Лучшие новости
ИИ может быть ключом к разблокировке более эффективного государственного сектора Великобритании 8 инновационных способов использования LIDAR на iPhone и iPad раскрыли «Группы призывают Swift мера по снижению экологического воздействия AI» Google.org раскрывает гранты на обучение AI за 15 миллионов долларов для государственных работников 7 причин, по которым Kindles остается отличной покупкой, даже без загрузок Telli, выпускник YC, обеспечивает предварительное финансирование для голосовых агентов AI Nvidia представляет графические процессоры следующего поколения: Blackwell Ultra, Vera Rubin, Feynman Sneak Peek: в последних проектах Adobe представлены продвинутые агенты искусственного интеллекта Tinder исследует совпадение искусственного интеллекта на фоне упадка пользователей

5 простых шагов для восстановления конфиденциальности данных в Интернете - начните сегодня

Более
OR