option
Maison
Nouvelles
Les experts mettent en évidence de graves défauts dans les repères d'IA crowdsourcés

Les experts mettent en évidence de graves défauts dans les repères d'IA crowdsourcés

25 avril 2025
98

Les experts mettent en évidence de graves défauts dans les repères d'IA crowdsourcés

Les laboratoires d'IA se tournent de plus en plus vers des plateformes de benchmarking participatif comme Chatbot Arena pour évaluer les capacités de leurs derniers modèles. Cependant, certains experts estiment que cette méthode soulève d'importantes préoccupations éthiques et académiques.

Ces dernières années, des acteurs majeurs comme OpenAI, Google et Meta ont utilisé des plateformes engageant les utilisateurs pour évaluer les performances de leurs modèles à venir. Un score élevé sur ces plateformes est souvent mis en avant par les laboratoires comme preuve de l'avancement de leur modèle. Toutefois, cette approche ne manque pas de critiques.

La critique du benchmarking participatif

Emily Bender, professeure de linguistique à l'Université de Washington et co-auteure de "The AI Con," a exprimé des inquiétudes quant à la validité de ces benchmarks, en particulier Chatbot Arena. Cette plateforme implique des volontaires comparant les réponses de deux modèles anonymes et choisissant leur préféré. Bender soutient qu'un benchmark efficace doit mesurer quelque chose de spécifique et démontrer une validité de construit, c'est-à-dire que la mesure doit refléter précisément le concept évalué. Elle affirme que Chatbot Arena manque de preuves que les préférences des utilisateurs pour une sortie par rapport à une autre correspondent réellement à des critères définis.

Asmelash Teka Hadgu, co-fondateur de l'entreprise d'IA Lesan et membre du Distributed AI Research Institute, suggère que ces benchmarks sont exploités par les laboratoires d'IA pour faire des revendications exagérées sur leurs modèles. Il a cité un incident récent avec le modèle Llama 4 Maverick de Meta, où Meta a affiné une version pour performer sur Chatbot Arena mais a choisi de publier une version moins efficace. Hadgu prône des benchmarks dynamiques, distribués entre plusieurs entités indépendantes et adaptés à des cas d'usage spécifiques dans des domaines comme l'éducation et la santé par des professionnels utilisant ces modèles dans leur travail.

L'appel à une rémunération équitable et à des méthodes d'évaluation plus larges

Hadgu et Kristine Gloria, ancienne dirigeante de l'Initiative sur les technologies émergentes et intelligentes de l'Aspen Institute, soutiennent que les évaluateurs devraient être rémunérés pour leur travail, en comparaison avec l'industrie souvent exploiteuse de l'étiquetage de données. Gloria considère le benchmarking participatif comme précieux, semblable aux initiatives de science citoyenne, mais souligne que les benchmarks ne devraient pas être la seule mesure d'évaluation, surtout compte tenu du rythme rapide de l'innovation industrielle.

Matt Fredrikson, PDG de Gray Swan AI, qui mène des campagnes de red teaming participatif, reconnaît l'attrait de ces plateformes pour les volontaires cherchant à apprendre et pratiquer de nouvelles compétences. Cependant, il insiste sur le fait que les benchmarks publics ne peuvent remplacer les évaluations plus approfondies fournies par des assessments privés rémunérés. Fredrikson suggère que les développeurs devraient également s'appuyer sur des benchmarks internes, des équipes rouges algorithmiques et des experts contractuels capables d'offrir des perspectives plus ouvertes et spécifiques au domaine.

Perspectives de l'industrie sur le benchmarking

Alex Atallah, PDG du marché de modèles OpenRouter, et Wei-Lin Chiang, doctorant en IA à l'UC Berkeley et l'un des fondateurs de LMArena (qui gère Chatbot Arena), conviennent que les tests et benchmarks ouverts seuls sont insuffisants. Chiang souligne que l'objectif de LMArena est de fournir un espace ouvert et fiable pour évaluer les préférences de la communauté concernant différents modèles d'IA.

En réponse à la controverse autour du benchmark Maverick, Chiang précise que ces incidents ne sont pas dus à des failles dans la conception de Chatbot Arena, mais plutôt à des mauvaises interprétations de ses politiques par les laboratoires. LMArena a depuis mis à jour ses politiques pour garantir des évaluations justes et reproductibles. Chiang souligne que la communauté de la plateforme n'est pas simplement un groupe de volontaires ou de testeurs, mais un groupe engagé qui fournit un retour collectif sur les modèles d'IA.

Le débat en cours autour de l'utilisation des plateformes de benchmarking participatif met en lumière la nécessité d'une approche plus nuancée de l'évaluation des modèles d'IA, combinant les contributions du public avec des assessments professionnels rigoureux pour garantir à la fois précision et équité.

Article connexe
Création musicale alimentée par l'IA : Créez des chansons et des vidéos sans effort Création musicale alimentée par l'IA : Créez des chansons et des vidéos sans effort La création musicale peut être complexe, nécessitant du temps, des ressources et une expertise. L'intelligence artificielle a transformé ce processus, le rendant simple et accessible. Ce guide montre
Création de livres de coloriage alimentés par l'IA : Un guide complet Création de livres de coloriage alimentés par l'IA : Un guide complet Concevoir des livres de coloriage est une entreprise gratifiante, combinant expression artistique et expériences apaisantes pour les utilisateurs. Cependant, le processus peut être laborieux. Heureuse
Qodo s'associe à Google Cloud pour offrir des outils gratuits d'examen de code par IA aux développeurs Qodo s'associe à Google Cloud pour offrir des outils gratuits d'examen de code par IA aux développeurs Qodo, une startup israélienne spécialisée dans le codage par IA et axée sur la qualité du code, a lancé un partenariat avec Google Cloud pour améliorer l'intégrité des logiciels générés par IA.À mesur
commentaires (16)
0/200
AlbertScott
AlbertScott 1 août 2025 15:47:34 UTC+02:00

Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?

JonathanAllen
JonathanAllen 27 avril 2025 09:34:07 UTC+02:00

Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅

AlbertWalker
AlbertWalker 27 avril 2025 07:24:31 UTC+02:00

Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀

RogerRodriguez
RogerRodriguez 27 avril 2025 05:52:29 UTC+02:00

I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

JonathanAllen
JonathanAllen 27 avril 2025 03:40:09 UTC+02:00

Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐

BrianWalker
BrianWalker 26 avril 2025 17:31:56 UTC+02:00

Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!

Retour en haut
OR