вариант
Дом
Новости
Эксперты выделяют серьезные недостатки в краудсорсинговых тестах ИИ

Эксперты выделяют серьезные недостатки в краудсорсинговых тестах ИИ

25 апреля 2025 г.
164

Эксперты выделяют серьезные недостатки в краудсорсинговых тестах ИИ

Лаборатории ИИ всё чаще обращаются к платформам краудсорсингового бенчмаркинга, таким как Chatbot Arena, для оценки возможностей своих новейших моделей. Однако некоторые эксперты утверждают, что этот метод вызывает серьёзные этические и академические вопросы.

В последние годы крупные игроки, такие как OpenAI, Google и Meta, используют платформы, которые привлекают пользователей для оценки производительности их будущих моделей. Высокий балл на этих платформах часто подчёркивается лабораториями как свидетельство прогресса их модели. Однако этот подход не обходится без критики.

Критика краудсорсингового бенчмаркинга

Эмили Бендер, профессор лингвистики в Университете Вашингтона и соавтор книги "The AI Con", выразила обеспокоенность по поводу валидности таких бенчмарков, в частности Chatbot Arena. Эта платформа предполагает, что волонтёры сравнивают ответы двух анонимных моделей и выбирают предпочтительный. Бендер утверждает, что для эффективности бенчмарка он должен измерять что-то конкретное и демонстрировать конструктивную валидность, то есть измерение должно точно отражать оцениваемый конструкт. Она считает, что Chatbot Arena не имеет доказательств того, что предпочтение пользователей одного ответа над другим действительно коррелирует с какими-либо определёнными критериями.

Асмелаш Тека Хадгу, сооснователь компании Lesan, занимающейся ИИ, и сотрудник Института распределённых исследований ИИ, предполагает, что эти бенчмарки используются лабораториями ИИ для преувеличенных заявлений о своих моделях. Он упомянул недавний инцидент с моделью Llama 4 Maverick от Meta, где Meta оптимизировала версию для хороших результатов на Chatbot Arena, но решила выпустить менее эффективную версию. Хадгу выступает за то, чтобы бенчмарки были динамическими, распределёнными между несколькими независимыми организациями и адаптированными к конкретным случаям использования в таких областях, как образование и здравоохранение, профессионалами, которые применяют эти модели в своей работе.

Призыв к справедливой оплате и более широким методам оценки

Хадгу и Кристин Глория, бывший руководитель инициативы по новым и интеллектуальным технологиям Института Аспена, утверждают, что оценщики должны получать компенсацию за свою работу, проводя параллели с часто эксплуататорской индустрией маркировки данных. Глория считает краудсорсинговый бенчмаркинг ценным, подобно инициативам гражданской науки, но подчёркивает, что бенчмарки не должны быть единственным критерием оценки, особенно учитывая быстрый темп инноваций в отрасли.

Мэтт Фредриксон, генеральный директор Gray Swan AI, проводящей краудсорсинговые кампании по тестированию на уязвимости, признаёт привлекательность таких платформ для волонтёров, стремящихся изучать и практиковать новые навыки. Однако он подчёркивает, что публичные бенчмарки не могут заменить более глубокие оценки, предоставляемые платными частными экспертизами. Фредриксон предлагает, чтобы разработчики также полагались на внутренние бенчмарки, алгоритмические команды по тестированию уязвимостей и привлечённых экспертов, которые могут предложить более открытые и специфичные для домена выводы.

Взгляды индустрии на бенчмаркинг

Алекс Аталлах, генеральный директор модельного маркетплейса OpenRouter, и Вэй-Лин Чан, докторант по ИИ в Калифорнийском университете в Беркли и один из основателей LMArena (управляющей Chatbot Arena), согласны, что открытые тестирования и бенчмаркинг сами по себе недостаточны. Чан подчёркивает, что цель LMArena — предоставить надёжное, открытое пространство для оценки предпочтений сообщества относительно различных моделей ИИ.

Касаясь споров вокруг бенчмарка Maverick, Чан уточняет, что такие инциденты связаны не с недостатками в дизайне Chatbot Arena, а с неверной интерпретацией её политики лабораториями. LMArena с тех пор обновила свои правила, чтобы обеспечить справедливые и воспроизводимые оценки. Чан подчёркивает, что сообщество платформы — это не просто группа волонтёров или тестировщиков, а вовлечённая группа, которая предоставляет коллективную обратную связь по моделям ИИ.

Продолжающиеся дебаты вокруг использования платформ краудсорсингового бенчмаркинга подчёркивают необходимость более тонкого подхода к оценке моделей ИИ, сочетающего общественный вклад с тщательными профессиональными оценками для обеспечения точности и справедливости.

Связанная статья
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ
DeepSeek Code готовится к запуску DeepSeek Code готовится к запуску На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив
Рекомендации по связанным специальным темам
Бизнес Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы
Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов
xix.ai
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
Комментарии (17)
0/500
EricDavis
EricDavis 19 мая 2026 г., 19:00:14 GMT+03:00

這篇文章點出了一個關鍵問題:眾包評測雖然快速,但真的能反映AI模型的真實能力嗎?專家們的擔憂很有道理,學術嚴謹性和倫理風險確實需要更嚴格的把關。希望業界能盡快建立更可靠的評估標準,而不是一味追求排行榜上的名次。🤔

AlbertScott
AlbertScott 1 августа 2025 г., 16:47:34 GMT+03:00

Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?

JonathanAllen
JonathanAllen 27 апреля 2025 г., 10:34:07 GMT+03:00

Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅

AlbertWalker
AlbertWalker 27 апреля 2025 г., 8:24:31 GMT+03:00

Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀

RogerRodriguez
RogerRodriguez 27 апреля 2025 г., 6:52:29 GMT+03:00

I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

JonathanAllen
JonathanAllen 27 апреля 2025 г., 4:40:09 GMT+03:00

Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐

OR