opción
Hogar
Noticias
Los expertos destacan defectos serios en los puntos de referencia de IA de crowdsourcing

Los expertos destacan defectos serios en los puntos de referencia de IA de crowdsourcing

25 de abril de 2025
98

Los expertos destacan defectos serios en los puntos de referencia de IA de crowdsourcing

Los laboratorios de IA están recurriendo cada vez más a plataformas de evaluación colaborativa como Chatbot Arena para evaluar las capacidades de sus últimos modelos. Sin embargo, algunos expertos argumentan que este método plantea preocupaciones éticas y académicas significativas.

En los últimos años, actores importantes como OpenAI, Google y Meta han utilizado plataformas que involucran a usuarios para evaluar el rendimiento de sus próximos modelos. Una alta puntuación en estas plataformas suele ser destacada por los laboratorios como testimonio del avance de su modelo. No obstante, este enfoque no está exento de críticas.

La crítica a la evaluación colaborativa

Emily Bender, profesora de lingüística en la Universidad de Washington y coautora de "The AI Con", ha expresado preocupaciones sobre la validez de dichos puntos de referencia, particularmente Chatbot Arena. Esta plataforma involucra a voluntarios que comparan respuestas de dos modelos anónimos y eligen su preferido. Bender sostiene que, para que un punto de referencia sea efectivo, debe medir algo específico y demostrar validez de constructo, lo que significa que la medición debe reflejar con precisión el constructo evaluado. Ella argumenta que Chatbot Arena carece de evidencia de que las preferencias de los usuarios por una salida sobre otra se correlacionen genuinamente con criterios definidos.

Asmelash Teka Hadgu, cofundador de la empresa de IA Lesan y miembro del Instituto de Investigación de IA Distribuida, sugiere que estos puntos de referencia están siendo explotados por los laboratorios de IA para hacer afirmaciones exageradas sobre sus modelos. Citó un incidente reciente con el modelo Llama 4 Maverick de Meta, donde Meta ajustó una versión para destacar en Chatbot Arena, pero optó por lanzar una versión menos efectiva. Hadgu aboga por puntos de referencia dinámicos, distribuidos entre múltiples entidades independientes y adaptados a casos de uso específicos en campos como la educación y la salud por profesionales que utilizan estos modelos en su trabajo.

La demanda de compensación justa y métodos de evaluación más amplios

Hadgu y Kristine Gloria, exlíder de la Iniciativa de Tecnologías Emergentes e Inteligentes del Instituto Aspen, argumentan que los evaluadores deben ser compensados por su trabajo, estableciendo paralelos con la industria de etiquetado de datos, a menudo explotadora. Gloria ve la evaluación colaborativa como valiosa, similar a las iniciativas de ciencia ciudadana, pero enfatiza que los puntos de referencia no deben ser la única métrica de evaluación, especialmente dado el rápido ritmo de innovación en la industria.

Matt Fredrikson, CEO de Gray Swan AI, que realiza campañas de pruebas colaborativas de equipos rojos, reconoce el atractivo de estas plataformas para voluntarios que buscan aprender y practicar nuevas habilidades. Sin embargo, subraya que los puntos de referencia públicos no pueden reemplazar las evaluaciones más profundas proporcionadas por evaluaciones privadas remuneradas. Fredrikson sugiere que los desarrolladores también deben depender de puntos de referencia internos, equipos rojos algorítmicos y expertos contratados que puedan ofrecer perspectivas más abiertas y específicas del dominio.

Perspectivas de la industria sobre la evaluación

Alex Atallah, CEO del mercado de modelos OpenRouter, y Wei-Lin Chiang, estudiante doctoral en IA en UC Berkeley y uno de los fundadores de LMArena (que gestiona Chatbot Arena), coinciden en que las pruebas y evaluaciones abiertas por sí solas son insuficientes. Chiang enfatiza que el objetivo de LMArena es proporcionar un espacio abierto y confiable para medir las preferencias de la comunidad sobre diferentes modelos de IA.

Abordando la controversia en torno al punto de referencia Maverick, Chiang aclara que tales incidentes no se deben a fallos en el diseño de Chatbot Arena, sino a malas interpretaciones de sus políticas por parte de los laboratorios. LMArena ha actualizado desde entonces sus políticas para garantizar evaluaciones justas y reproducibles. Chiang subraya que la comunidad de la plataforma no es simplemente un grupo de voluntarios o probadores, sino un grupo comprometido que proporciona retroalimentación colectiva sobre los modelos de IA.

El debate en curso sobre el uso de plataformas de evaluación colaborativa destaca la necesidad de un enfoque más matizado para la evaluación de modelos de IA, uno que combine la opinión pública con evaluaciones profesionales rigurosas para garantizar tanto precisión como equidad.

Artículo relacionado
Creación de Libros para Colorear Impulsados por IA: Una Guía Completa Creación de Libros para Colorear Impulsados por IA: Una Guía Completa Diseñar libros para colorear es una actividad gratificante que combina la expresión artística con experiencias relajantes para los usuarios. Sin embargo, el proceso puede ser intensivo en trabajo. Afo
Qodo se asocia con Google Cloud para ofrecer herramientas gratuitas de revisión de código de IA para desarrolladores Qodo se asocia con Google Cloud para ofrecer herramientas gratuitas de revisión de código de IA para desarrolladores Qodo, una startup de codificación de IA con sede en Israel enfocada en la calidad del código, ha iniciado una asociación con Google Cloud para mejorar la integridad del software generado por IA.A medi
El AI de DeepMind Gana Oro en la Olimpiada de Matemáticas 2025 El AI de DeepMind Gana Oro en la Olimpiada de Matemáticas 2025 El AI de DeepMind ha logrado un avance impresionante en razonamiento matemático, obteniendo una medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) 2025, solo un año después de ganar pla
comentario (16)
0/200
AlbertScott
AlbertScott 1 de agosto de 2025 15:47:34 GMT+02:00

Crowdsourced AI benchmarks sound cool, but experts pointing out ethical issues makes me wonder if we're rushing too fast. 🤔 Are we sacrificing quality for hype?

JonathanAllen
JonathanAllen 27 de abril de 2025 09:34:07 GMT+02:00

Estou acompanhando o debate sobre benchmarks de IA crowdsourced e, honestamente, é uma bagunça. Os especialistas têm razão ao apontar as falhas, mas qual é a alternativa? É como tentar consertar um barco que vaza com mais buracos. Ainda assim, é uma leitura interessante e certamente faz você pensar sobre o futuro da ética em IA. Experimente se você gosta desse tipo de coisa! 😅

AlbertWalker
AlbertWalker 27 de abril de 2025 07:24:31 GMT+02:00

Nossa, benchmarks de IA por multidão? Parece legal, mas com falhas éticas? Tô pensando se isso não atrapalha a inovação. As big techs precisam resolver isso logo! 🚀

RogerRodriguez
RogerRodriguez 27 de abril de 2025 05:52:29 GMT+02:00

I've been following the debate on crowdsourced AI benchmarks and honestly, it's a mess. Experts are right to point out the flaws, but what's the alternative? It's like trying to fix a leaky boat with more holes. Still, it's an interesting read and definitely makes you think about the future of AI ethics. Give it a go if you're into that kinda stuff! 😅

JonathanAllen
JonathanAllen 27 de abril de 2025 03:40:09 GMT+02:00

Intéressant, mais inquiétant ! Les benchmarks par crowdsourcing, c’est innovant, mais les failles éthiques me font réfléchir. Les géants comme Google vont devoir être transparents. 🧐

BrianWalker
BrianWalker 26 de abril de 2025 17:31:56 GMT+02:00

Wow, crowdsourced AI benchmarks sound cool but flawed? Kinda makes sense—random people judging AI might not be super reliable. 🤔 Curious how OpenAI and Google will fix this!

Volver arriba
OR