Hogar Noticias Los expertos destacan defectos serios en los puntos de referencia de IA de crowdsourcing

Los expertos destacan defectos serios en los puntos de referencia de IA de crowdsourcing

25 de abril de 2025
JamesWalker
6

Los laboratorios de IA están recurriendo cada vez más a plataformas de evaluación comparativa de crowdsourcing como Chatbot Arena para evaluar las capacidades de sus últimos modelos. Sin embargo, algunos expertos argumentan que este método plantea importantes preocupaciones éticas y académicas.

En los últimos años, los principales actores como OpenAi, Google y Meta han utilizado plataformas que involucran a los usuarios para evaluar el rendimiento de sus próximos modelos. Los laboratorios a menudo destacan un puntaje alto en estas plataformas como un testimonio del avance de su modelo. Sin embargo, este enfoque no está exento de críticos.

La crítica de la evaluación comparativa de crowdsourcing

Emily Bender, profesora de lingüística en la Universidad de Washington y coautora de "The Ai Con", ha expresado su preocupación sobre la validez de tales puntos de referencia, particularmente el chatbot Arena. Esta plataforma implica voluntarios que comparan las respuestas de dos modelos anónimos y la elección de su preferido. Bender argumenta que para que un punto de referencia sea efectivo, debe medir algo específico y demostrar validez de construcción, lo que significa que la medición debe reflejar con precisión la construcción que se está evaluando. Ella sostiene que el chatbot arena carece de evidencia de que las preferencias del usuario para un resultado sobre otro correlacionado genuinamente con cualquier criterio definido.

Asmelash Teka Hadgu, cofundadora de la firma de IA Lesan y miembro del Instituto de Investigación de AI distribuido, sugiere que estos puntos de referencia están siendo explotados por AI Labs para hacer afirmaciones exageradas sobre sus modelos. Citó un incidente reciente con Meta's Llama 4 Maverick Model, donde Meta Finuned una versión para funcionar bien en Chatbot Arena, pero decidió lanzar una versión menos efectiva. Hadgu aboga por que los puntos de referencia sean dinámicos, se distribuyan en múltiples entidades independientes y se adapten a casos de uso específicos en campos como la educación y la atención médica por parte de profesionales que usan estos modelos en su trabajo.

El llamado a una compensación justa y métodos de evaluación más amplios

Hadgu y Kristine Gloria, ex líder de la iniciativa de tecnologías emergentes e inteligentes del Instituto Aspen, argumentan que los evaluadores deben ser compensados ​​por su trabajo, lo que recurre a la industria de etiquetado de datos a menudo explotador. Gloria considera que la evaluación comparativa de crowdsourcing es valiosa, similar a las iniciativas de ciencias ciudadanas, pero enfatiza que los puntos de referencia no deberían ser la única métrica para la evaluación, especialmente dado el rápido ritmo de la innovación de la industria.

Matt Fredrikson, CEO de Gray Swan Ai, que realiza campañas de equipo rojo de crowdsourced, reconoce el atractivo de tales plataformas para voluntarios que buscan aprender y practicar nuevas habilidades. Sin embargo, enfatiza que los puntos de referencia públicos no pueden reemplazar las evaluaciones más profundas proporcionadas por las evaluaciones privadas pagadas. Fredrikson sugiere que los desarrolladores también deben confiar en puntos de referencia internos, equipos rojos algorítmicos y expertos contratados que pueden ofrecer información más abierta y específica de dominio.

Perspectivas de la industria en la evaluación comparativa

Alex Atallah, CEO de Model Marketplace OpenRouter, y Wei-Lin Chiang, un estudiante de doctorado de IA en UC Berkeley y uno de los fundadores de Lmarena (que administra Chatbot Arena), acuerdan que las pruebas abiertas y la evaluación comparativa son solo es insuficiente. Chiang enfatiza que el objetivo de Lmarena es proporcionar un espacio abierto y confiable para medir las preferencias de la comunidad sobre diferentes modelos de IA.

Al abordar la controversia en torno al punto de referencia de Maverick, Chiang aclara que tales incidentes no se deben a fallas en el diseño del chatbot Arena, sino más bien malinterpretaciones de sus políticas por parte de los laboratorios. Desde entonces, Lmarena ha actualizado sus políticas para garantizar evaluaciones justas y reproducibles. Chiang subraya que la comunidad de la plataforma no es simplemente un grupo de voluntarios o probadores, sino un grupo comprometido que proporciona comentarios colectivos sobre los modelos de IA.

Call of Duty: Mobile- Todos los códigos de redimia de trabajo enero de 2025

El debate en curso sobre el uso de plataformas de evaluación comparativa de crowdsourced destaca la necesidad de un enfoque más matizado para la evaluación del modelo de IA, una que combina aportes públicos con evaluaciones rigurosas y profesionales para garantizar tanto la precisión como la equidad.

Artículo relacionado
Capítulo cinco de la quimera de la capilla: una exploración en profundidad Capítulo cinco de la quimera de la capilla: una exploración en profundidad En el capítulo cinco de la quimera de la capilla, Will Graham se despierta de un coma de tres meses a un mundo donde se cree que Hannibal Lecter está muerto. Sin embargo, algo se siente a voluntad; El mundo parece encerrado en un velo de engaño. Este capítulo sumerge a los lectores en una narrativa emocionante, explorando temas de T
Fanfiction con IA desatado: una guía completa para escribir Fanfic con herramientas de IA Fanfiction con IA desatado: una guía completa para escribir Fanfic con herramientas de IA Fanfiction siempre ha sido una forma dinámica para que los fanáticos se sumerjan en sus mundos ficticios favoritos, reinventen personajes queridos y giren cuentos completamente nuevos. Ahora, con el advenimiento de la inteligencia artificial (AI), este paisaje creativo está recibiendo un impulso de alta tecnología. Las herramientas de IA están entrando en el
Aumentar la productividad: cómo ChatGPT mejora la gestión del tiempo Aumentar la productividad: cómo ChatGPT mejora la gestión del tiempo En el mundo de ritmo rápido de hoy, dominar la gestión del tiempo es esencial para el éxito, ya sea que sea un profesional que haga malabares con múltiples proyectos o una escuela de equilibrio de estudiantes y la vida personal. ChatGPT ofrece soluciones innovadoras para revolucionar su programación, priorización y productividad general. T
Comentario (0)
0/200
OR