Maison Nouvelles Les experts mettent en évidence de graves défauts dans les repères d'IA crowdsourcés

Les experts mettent en évidence de graves défauts dans les repères d'IA crowdsourcés

25 avril 2025
JamesWalker
6

Les laboratoires AI se tournent de plus en plus vers des plateformes d'analyse comparative comme Chatbot Arena pour évaluer les capacités de leurs derniers modèles. Pourtant, certains experts soutiennent que cette méthode soulève des préoccupations éthiques et académiques importantes.

Ces dernières années, les principaux acteurs comme OpenAI, Google et Meta ont utilisé des plateformes qui engagent les utilisateurs pour évaluer les performances de leurs modèles à venir. Un score élevé sur ces plates-formes est souvent mis en évidence par les laboratoires comme un témoignage de l'avancement de leur modèle. Cependant, cette approche n'est pas sans ses critiques.

La critique de l'analyse comparative du crowdsourced

Emily Bender, professeur de linguistique à l'Université de Washington et co-auteur de "The AI ​​Con", a exprimé ses inquiétudes concernant la validité de ces références, en particulier le chatbot Arena. Cette plate-forme implique des bénévoles de comparaison des réponses de deux modèles anonymes et de choisir leur préféré. Bender soutient que pour qu'une référence soit efficace, elle doit mesurer quelque chose de spécifique et démontrer la validité de la construction, ce qui signifie que la mesure doit refléter avec précision la construction évaluée. Elle soutient que Chatbot Arena manque de preuve que les préférences des utilisateurs pour une sortie sur un autre sont véritablement en corrélation avec tout critère défini.

Asmelash Teka Hadgu, co-fondatrice de la société AI Lesan et membre du Distributed AI Research Institute, suggère que ces repères sont exploités par les laboratoires de l'IA pour faire des revendications exagérées sur leurs modèles. Il a cité un incident récent avec Meta's Llama 4 Maverick Model, où Meta a affiné une version pour bien performer sur Chatbot Arena, mais a choisi de publier une version moins efficace. HADGU plaide que les références sont dynamiques, réparties sur plusieurs entités indépendantes et adaptées à des cas d'utilisation spécifiques dans des domaines comme l'éducation et les soins de santé par des professionnels qui utilisent ces modèles dans leur travail.

L'appel à une compensation équitable et à des méthodes d'évaluation plus larges

Hadgu et Kristine Gloria, ancien chef de l'initiative des technologies émergentes et intelligentes de l'Aspen Institute, soutiennent que les évaluateurs devraient être indemnisés pour leur travail, établissant des parallèles avec l'industrie du marquage de données souvent exploiteur. Gloria considère que l'analyse comparative du crowdsourcée comme précieuse, semblable aux initiatives de la science citoyenne, mais souligne que les repères ne devraient pas être la seule métrique pour l'évaluation, en particulier compte tenu du rythme rapide de l'innovation de l'industrie.

Matt Fredrikson, PDG de Grey Swan AI, qui mène des campagnes en équipe rouge de Crowdsourced, reconnaît l'attrait de ces plateformes pour les bénévoles cherchant à apprendre et à pratiquer de nouvelles compétences. Cependant, il souligne que les références publiques ne peuvent pas remplacer les évaluations plus approfondies fournies par des évaluations privées payantes. Fredrikson suggère que les développeurs devraient également s'appuyer sur des références internes, des équipes rouges algorithmiques et des experts contractés qui peuvent offrir des informations plus ouvertes et spécifiques au domaine.

Perspectives de l'industrie sur l'analyse comparative

Alex Atallah, PDG de Model Marketplace OpenRouter, et Wei-Lin Chiang, un doctorant de l'IA à UC Berkeley et l'un des fondateurs de Lmarena (qui gère le chatbot aréna), conviennent que les tests ouverts et l'analyse comparative seuls sont insuffisants. Chiang souligne que l'objectif de Lmarena est de fournir un espace ouvert digne de confiance pour mesurer les préférences communautaires sur différents modèles d'IA.

S'adressant à la controverse autour de la référence Maverick, Chiang précise que de tels incidents ne sont pas dus à des défauts dans la conception de Chatbot Arena mais plutôt des interprétations erronées de ses politiques par les laboratoires. Lmarena a depuis mis à jour ses politiques pour assurer des évaluations équitables et reproductibles. Chiang souligne que la communauté de la plate-forme n'est pas simplement un groupe de bénévoles ou de testeurs, mais un groupe engagé qui fournit des commentaires collectifs sur les modèles d'IA.

Call of Duty: Mobile - Tous les codes de rachat de travail janvier 2025

Le débat en cours sur l'utilisation des plates-formes d'analyse comparative de crowdsourced met en évidence la nécessité d'une approche plus nuancée de l'évaluation du modèle d'IA, qui combine la contribution du public avec des évaluations professionnelles rigoureuses pour assurer la précision et l'équité.

Article connexe
Anthropic lance le programme pour étudier l'IA «modèle de bien-être du modèle» Anthropic lance le programme pour étudier l'IA «modèle de bien-être du modèle» Les AIS futurs pourraient-ils être conscients? La question de savoir si les AIS futurs pourraient vivre le monde d'une manière similaire aux humains est intrigant, mais reste largement sans réponse. Bien qu'il n'y ait aucune preuve définitive qu'ils le feront, AI Lab Anthropic ne rejette pas carrément la possibilité. Jeudi, Anthro
Tendances de jupe à lacets: conseils de style et idées de tenue pour les basculer Tendances de jupe à lacets: conseils de style et idées de tenue pour les basculer Les jupes à lacets sont devenues une tendance chaude, fusionnant un bord audacieux avec une pincée de féminité. Ces jupes, connues pour leurs détails à lacets accrocheurs, sont un incontournable pour les amateurs de mode qui cherchent à pimenter leur garde-robe. Que vous alliez pour une déclaration dramatique ou un soupçon de style subtil, à arriver à GR
AI pragmatique: trouver un équilibre entre enthousiasme et scepticisme en développement AI pragmatique: trouver un équilibre entre enthousiasme et scepticisme en développement Dans le monde en constante évolution de l'intelligence artificielle, le maintien d'une perspective équilibrée est essentiel pour les développeurs travaillant dans l'écosystème .NET et C #. Bien que le potentiel de l'IA soit passionnant, une dose de scepticisme assure son intégration pratique et efficace. Cet article prend un apparente pragmatique
Commentaires (0)
0/200
OR