Especialistas destacam falhas graves nos benchmarks de IA de crowdsourcing

Lar

Notícias

25 de Abril de 2025

JamesWalker

Especialistas destacam falhas graves nos benchmarks de IA de crowdsourcing

Laboratórios de IA estão cada vez mais recorrendo a plataformas de benchmarking crowdsourced, como a Chatbot Arena, para avaliar as capacidades de seus modelos mais recentes. No entanto, alguns especialistas argumentam que esse método levanta preocupações éticas e acadêmicas significativas.

Nos últimos anos, grandes players como OpenAI, Google e Meta utilizaram plataformas que engajam usuários para avaliar o desempenho de seus modelos futuros. Uma pontuação alta nessas plataformas é frequentemente destacada pelos laboratórios como prova do avanço de seus modelos. Contudo, essa abordagem não está isenta de críticas.

A Crítica ao Benchmarking Crowdsourced

Emily Bender, professora de linguística na Universidade de Washington e coautora de "The AI Con," expressou preocupações sobre a validade de tais benchmarks, particularmente a Chatbot Arena. Esta plataforma envolve voluntários comparando respostas de dois modelos anônimos e escolhendo o preferido. Bender argumenta que, para um benchmark ser eficaz, ele deve medir algo específico e demonstrar validade de construto, ou seja, a medição deve refletir com precisão o construto avaliado. Ela sustenta que a Chatbot Arena carece de evidências de que as preferências dos usuários por uma saída sobre outra realmente se correlacionam com quaisquer critérios definidos.

Asmelash Teka Hadgu, cofundador da empresa de IA Lesan e fellow no Distributed AI Research Institute, sugere que esses benchmarks estão sendo explorados por laboratórios de IA para fazer alegações exageradas sobre seus modelos. Ele citou um incidente recente com o modelo Llama 4 Maverick da Meta, onde a Meta ajustou uma versão para ter bom desempenho na Chatbot Arena, mas optou por lançar uma versão menos eficaz. Hadgu defende que os benchmarks devem ser dinâmicos, distribuídos por várias entidades independentes e adaptados a casos de uso específicos em áreas como educação e saúde por profissionais que utilizam esses modelos em seu trabalho.

A Demanda por Compensação Justa e Métodos de Avaliação Mais Amplos

Hadgu e Kristine Gloria, ex-líder da Iniciativa de Tecnologias Emergentes e Inteligentes do Aspen Institute, argumentam que os avaliadores devem ser compensados por seu trabalho, traçando paralelos com a indústria de rotulagem de dados, muitas vezes exploratória. Gloria vê o benchmarking crowdsourced como valioso, semelhante a iniciativas de ciência cidadã, mas enfatiza que os benchmarks não devem ser a única métrica para avaliação, especialmente dado o ritmo rápido da inovação na indústria.

Matt Fredrikson, CEO da Gray Swan AI, que conduz campanhas de red teaming crowdsourced, reconhece o apelo dessas plataformas para voluntários que buscam aprender e praticar novas habilidades. No entanto, ele destaca que benchmarks públicos não podem substituir avaliações mais aprofundadas fornecidas por avaliações privadas remuneradas. Fredrikson sugere que os desenvolvedores também devem confiar em benchmarks internos, equipes vermelhas algorítmicas e especialistas contratados que podem oferecer insights mais abertos e específicos por domínio.

Perspectivas da Indústria sobre Benchmarking

Alex Atallah, CEO do mercado de modelos OpenRouter, e Wei-Lin Chiang, estudante de doutorado em IA na UC Berkeley e um dos fundadores da LMArena (que gerencia a Chatbot Arena), concordam que testes e benchmarking abertos sozinhos são insuficientes. Chiang enfatiza que o objetivo da LMArena é fornecer um espaço confiável e aberto para avaliar as preferências da comunidade sobre diferentes modelos de IA.

Abordando a controvérsia em torno do benchmark Maverick, Chiang esclarece que tais incidentes não se devem a falhas no design da Chatbot Arena, mas sim a interpretações erradas de suas políticas pelos laboratórios. A LMArena desde então atualizou suas políticas para garantir avaliações justas e reproduzíveis. Chiang destaca que a comunidade da plataforma não é apenas um grupo de voluntários ou testadores, mas um grupo engajado que fornece feedback coletivo sobre modelos de IA.

O debate contínuo sobre o uso de plataformas de benchmarking crowdsourced destaca a necessidade de uma abordagem mais nuançada para a avaliação de modelos de IA, que combine a entrada do público com avaliações profissionais rigorosas para garantir precisão e justiça.

Artigo relacionado

Master Emerald Kaizo Nuzlocke: Guia definitivo de sobrevivência e estratégia O Emerald Kaizo é um dos mais formidáveis hacks de ROM de Pokémon já concebidos. Embora a tentativa de executar um Nuzlocke aumente exponencialmente o desafio, a vitória continua sendo possível por me

Cartas de apresentação com tecnologia de IA: Guia especializado para submissão de artigos em periódicos No competitivo ambiente de publicação acadêmica de hoje, a elaboração de uma carta de apresentação eficaz pode fazer a diferença crucial na aceitação do seu manuscrito. Descubra como as ferramentas co

EUA sancionarão autoridades estrangeiras por causa de regulamentações de mídia social EUA se posicionam contra as regulamentações globais de conteúdo digitalO Departamento de Estado emitiu uma forte repreensão diplomática nesta semana, visando às políticas europeias de governança dig

Comentários (16)

0/200

Enviar

AlbertScott

1 de Agosto de 2025 à34 14:47:34 WEST

Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?

JonathanAllen

27 de Abril de 2025 à7 08:34:07 WEST

Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅

AlbertWalker

27 de Abril de 2025 à31 06:24:31 WEST

Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀

RogerRodriguez

27 de Abril de 2025 à29 04:52:29 WEST

I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

JonathanAllen

27 de Abril de 2025 à9 02:40:09 WEST

Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐

BrianWalker

26 de Abril de 2025 à56 16:31:56 WEST

Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!

Principais notícias

Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada AI Builder e Power Automate Revolucionam a Sumarização de Documentos O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude

Mais

Apresentou