Especialistas destacam falhas graves nos benchmarks de IA de crowdsourcing

Laboratórios de IA estão cada vez mais recorrendo a plataformas de benchmarking crowdsourced, como a Chatbot Arena, para avaliar as capacidades de seus modelos mais recentes. No entanto, alguns especialistas argumentam que esse método levanta preocupações éticas e acadêmicas significativas.
Nos últimos anos, grandes players como OpenAI, Google e Meta utilizaram plataformas que engajam usuários para avaliar o desempenho de seus modelos futuros. Uma pontuação alta nessas plataformas é frequentemente destacada pelos laboratórios como prova do avanço de seus modelos. Contudo, essa abordagem não está isenta de críticas.
A Crítica ao Benchmarking Crowdsourced
Emily Bender, professora de linguística na Universidade de Washington e coautora de "The AI Con," expressou preocupações sobre a validade de tais benchmarks, particularmente a Chatbot Arena. Esta plataforma envolve voluntários comparando respostas de dois modelos anônimos e escolhendo o preferido. Bender argumenta que, para um benchmark ser eficaz, ele deve medir algo específico e demonstrar validade de construto, ou seja, a medição deve refletir com precisão o construto avaliado. Ela sustenta que a Chatbot Arena carece de evidências de que as preferências dos usuários por uma saída sobre outra realmente se correlacionam com quaisquer critérios definidos.
Asmelash Teka Hadgu, cofundador da empresa de IA Lesan e fellow no Distributed AI Research Institute, sugere que esses benchmarks estão sendo explorados por laboratórios de IA para fazer alegações exageradas sobre seus modelos. Ele citou um incidente recente com o modelo Llama 4 Maverick da Meta, onde a Meta ajustou uma versão para ter bom desempenho na Chatbot Arena, mas optou por lançar uma versão menos eficaz. Hadgu defende que os benchmarks devem ser dinâmicos, distribuídos por várias entidades independentes e adaptados a casos de uso específicos em áreas como educação e saúde por profissionais que utilizam esses modelos em seu trabalho.
A Demanda por Compensação Justa e Métodos de Avaliação Mais Amplos
Hadgu e Kristine Gloria, ex-líder da Iniciativa de Tecnologias Emergentes e Inteligentes do Aspen Institute, argumentam que os avaliadores devem ser compensados por seu trabalho, traçando paralelos com a indústria de rotulagem de dados, muitas vezes exploratória. Gloria vê o benchmarking crowdsourced como valioso, semelhante a iniciativas de ciência cidadã, mas enfatiza que os benchmarks não devem ser a única métrica para avaliação, especialmente dado o ritmo rápido da inovação na indústria.
Matt Fredrikson, CEO da Gray Swan AI, que conduz campanhas de red teaming crowdsourced, reconhece o apelo dessas plataformas para voluntários que buscam aprender e praticar novas habilidades. No entanto, ele destaca que benchmarks públicos não podem substituir avaliações mais aprofundadas fornecidas por avaliações privadas remuneradas. Fredrikson sugere que os desenvolvedores também devem confiar em benchmarks internos, equipes vermelhas algorítmicas e especialistas contratados que podem oferecer insights mais abertos e específicos por domínio.
Perspectivas da Indústria sobre Benchmarking
Alex Atallah, CEO do mercado de modelos OpenRouter, e Wei-Lin Chiang, estudante de doutorado em IA na UC Berkeley e um dos fundadores da LMArena (que gerencia a Chatbot Arena), concordam que testes e benchmarking abertos sozinhos são insuficientes. Chiang enfatiza que o objetivo da LMArena é fornecer um espaço confiável e aberto para avaliar as preferências da comunidade sobre diferentes modelos de IA.
Abordando a controvérsia em torno do benchmark Maverick, Chiang esclarece que tais incidentes não se devem a falhas no design da Chatbot Arena, mas sim a interpretações erradas de suas políticas pelos laboratórios. A LMArena desde então atualizou suas políticas para garantir avaliações justas e reproduzíveis. Chiang destaca que a comunidade da plataforma não é apenas um grupo de voluntários ou testadores, mas um grupo engajado que fornece feedback coletivo sobre modelos de IA.
O debate contínuo sobre o uso de plataformas de benchmarking crowdsourced destaca a necessidade de uma abordagem mais nuançada para a avaliação de modelos de IA, que combine a entrada do público com avaliações profissionais rigorosas para garantir precisão e justiça.
Artigo relacionado
Criando Livros de Colorir Alimentados por IA: Um Guia Completo
Projetar livros de colorir é uma busca recompensadora, combinando expressão artística com experiências calmantes para os usuários. No entanto, o processo pode ser trabalhoso. Felizmente, ferramentas d
Qodo Faz Parceria com Google Cloud para Oferecer Ferramentas Gratuitas de Revisão de Código por IA para Desenvolvedores
Qodo, uma startup de codificação por IA baseada em Israel focada em qualidade de código, lançou uma parceria com Google Cloud para aprimorar a integridade de software gerado por IA.À medida que as emp
IA da DeepMind Ganha Ouro na Olimpíada de Matemática de 2025
A IA da DeepMind alcançou um salto impressionante no raciocínio matemático, conquistando uma medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025, apenas um ano após ganhar prata em
Comentários (16)
0/200
AlbertScott
1 de Agosto de 2025 à34 14:47:34 WEST
Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?
0
JonathanAllen
27 de Abril de 2025 à7 08:34:07 WEST
Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅
0
AlbertWalker
27 de Abril de 2025 à31 06:24:31 WEST
Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀
0
RogerRodriguez
27 de Abril de 2025 à29 04:52:29 WEST
I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅
0
JonathanAllen
27 de Abril de 2025 à9 02:40:09 WEST
Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐
0
BrianWalker
26 de Abril de 2025 à56 16:31:56 WEST
Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!
0
Laboratórios de IA estão cada vez mais recorrendo a plataformas de benchmarking crowdsourced, como a Chatbot Arena, para avaliar as capacidades de seus modelos mais recentes. No entanto, alguns especialistas argumentam que esse método levanta preocupações éticas e acadêmicas significativas.
Nos últimos anos, grandes players como OpenAI, Google e Meta utilizaram plataformas que engajam usuários para avaliar o desempenho de seus modelos futuros. Uma pontuação alta nessas plataformas é frequentemente destacada pelos laboratórios como prova do avanço de seus modelos. Contudo, essa abordagem não está isenta de críticas.
A Crítica ao Benchmarking Crowdsourced
Emily Bender, professora de linguística na Universidade de Washington e coautora de "The AI Con," expressou preocupações sobre a validade de tais benchmarks, particularmente a Chatbot Arena. Esta plataforma envolve voluntários comparando respostas de dois modelos anônimos e escolhendo o preferido. Bender argumenta que, para um benchmark ser eficaz, ele deve medir algo específico e demonstrar validade de construto, ou seja, a medição deve refletir com precisão o construto avaliado. Ela sustenta que a Chatbot Arena carece de evidências de que as preferências dos usuários por uma saída sobre outra realmente se correlacionam com quaisquer critérios definidos.
Asmelash Teka Hadgu, cofundador da empresa de IA Lesan e fellow no Distributed AI Research Institute, sugere que esses benchmarks estão sendo explorados por laboratórios de IA para fazer alegações exageradas sobre seus modelos. Ele citou um incidente recente com o modelo Llama 4 Maverick da Meta, onde a Meta ajustou uma versão para ter bom desempenho na Chatbot Arena, mas optou por lançar uma versão menos eficaz. Hadgu defende que os benchmarks devem ser dinâmicos, distribuídos por várias entidades independentes e adaptados a casos de uso específicos em áreas como educação e saúde por profissionais que utilizam esses modelos em seu trabalho.
A Demanda por Compensação Justa e Métodos de Avaliação Mais Amplos
Hadgu e Kristine Gloria, ex-líder da Iniciativa de Tecnologias Emergentes e Inteligentes do Aspen Institute, argumentam que os avaliadores devem ser compensados por seu trabalho, traçando paralelos com a indústria de rotulagem de dados, muitas vezes exploratória. Gloria vê o benchmarking crowdsourced como valioso, semelhante a iniciativas de ciência cidadã, mas enfatiza que os benchmarks não devem ser a única métrica para avaliação, especialmente dado o ritmo rápido da inovação na indústria.
Matt Fredrikson, CEO da Gray Swan AI, que conduz campanhas de red teaming crowdsourced, reconhece o apelo dessas plataformas para voluntários que buscam aprender e praticar novas habilidades. No entanto, ele destaca que benchmarks públicos não podem substituir avaliações mais aprofundadas fornecidas por avaliações privadas remuneradas. Fredrikson sugere que os desenvolvedores também devem confiar em benchmarks internos, equipes vermelhas algorítmicas e especialistas contratados que podem oferecer insights mais abertos e específicos por domínio.
Perspectivas da Indústria sobre Benchmarking
Alex Atallah, CEO do mercado de modelos OpenRouter, e Wei-Lin Chiang, estudante de doutorado em IA na UC Berkeley e um dos fundadores da LMArena (que gerencia a Chatbot Arena), concordam que testes e benchmarking abertos sozinhos são insuficientes. Chiang enfatiza que o objetivo da LMArena é fornecer um espaço confiável e aberto para avaliar as preferências da comunidade sobre diferentes modelos de IA.
Abordando a controvérsia em torno do benchmark Maverick, Chiang esclarece que tais incidentes não se devem a falhas no design da Chatbot Arena, mas sim a interpretações erradas de suas políticas pelos laboratórios. A LMArena desde então atualizou suas políticas para garantir avaliações justas e reproduzíveis. Chiang destaca que a comunidade da plataforma não é apenas um grupo de voluntários ou testadores, mas um grupo engajado que fornece feedback coletivo sobre modelos de IA.
O debate contínuo sobre o uso de plataformas de benchmarking crowdsourced destaca a necessidade de uma abordagem mais nuançada para a avaliação de modelos de IA, que combine a entrada do público com avaliações profissionais rigorosas para garantir precisão e justiça.



Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?




Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅




Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀




I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅




Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐




Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!












