Desafíos de la Anotación con IA: El Mito del Etiquetado Automatizado

Hogar

Noticias

21 de agosto de 2025

ThomasRoberts

La investigación en aprendizaje automático a menudo asume que la IA puede mejorar las anotaciones de conjuntos de datos, especialmente las descripciones de imágenes para modelos de visión-lenguaje (VLMs), para reducir costos y la carga de supervisión humana.

Esto recuerda al meme de principios de los 2000 "descarga más RAM", que se burlaba de la idea de que el software podía solucionar los límites del hardware.

Sin embargo, la calidad de la anotación a menudo se pasa por alto, opacada por el entusiasmo por los nuevos modelos de IA, a pesar de su papel crítico en los procesos de aprendizaje automático.

La capacidad de la IA para identificar y replicar patrones depende de anotaciones humanas de alta calidad y consistentes: etiquetas y descripciones creadas por personas que toman decisiones subjetivas en entornos imperfectos.

Los sistemas que intentan imitar el comportamiento de los anotadores para reemplazar a los humanos y escalar el etiquetado preciso enfrentan dificultades con datos no incluidos en los ejemplos proporcionados por humanos. La similitud no equivale a equivalencia, y la consistencia entre dominios sigue siendo esquiva en la visión por computadora.

En última instancia, el juicio humano define los datos que dan forma a los sistemas de IA.

Soluciones RAG

Hasta hace poco, los errores en las anotaciones de conjuntos de datos se toleraban como compensaciones menores, dado los resultados imperfectos pero comercializables de la IA generativa.

Un estudio de Singapur de 2025 encontró que las alucinaciones —la IA generando resultados falsos— son inherentes al diseño de estos sistemas.

Los agentes basados en RAG, que verifican hechos mediante búsquedas en internet, están ganando tracción en aplicaciones de investigación y comerciales, pero aumentan los costos de recursos y los retrasos en las consultas. La nueva información aplicada a modelos entrenados carece de la profundidad de las conexiones nativas del modelo.

Las anotaciones defectuosas socavan el rendimiento del modelo, y mejorar su calidad, aunque imperfecta debido a la subjetividad humana, es crítico.

Perspectivas de RePOPE

Un estudio alemán expone fallos en conjuntos de datos antiguos, enfocándose en la precisión de las descripciones de imágenes en puntos de referencia como MSCOCO. Revela cómo los errores en las etiquetas distorsionan las evaluaciones de alucinaciones en modelos de visión-lenguaje.

Del nuevo artículo, algunos ejemplos donde las descripciones originales no identificaron correctamente los objetos en el conjunto de datos de imágenes MSCOCO. La revisión manual del conjunto de datos de referencia POPE por parte de los investigadores aborda estas deficiencias, demostrando el costo de ahorrar dinero en la curación de anotaciones. Fuente: https://arxiv.org/pdf/2504.15707

Ejemplos de un estudio reciente que muestra una identificación incorrecta de objetos en las descripciones del conjunto de datos MSCOCO. Las revisiones manuales al punto de referencia POPE destacan las trampas de reducir costos en la curación de anotaciones. Fuente: https://arxiv.org/pdf/2504.15707

Considera una IA evaluando una imagen de una escena callejera en busca de una bicicleta. Si el modelo dice sí pero el conjunto de datos afirma no, se marca como incorrecto. Sin embargo, si una bicicleta está visiblemente presente pero no se anotó, el modelo es correcto y el conjunto de datos está defectuoso. Tales errores sesgan la precisión del modelo y las métricas de alucinación.

Las anotaciones incorrectas o vagas pueden hacer que modelos precisos parezcan propensos a errores o que modelos defectuosos parezcan fiables, complicando el diagnóstico de alucinaciones y la clasificación de modelos.

El estudio revisita el punto de referencia de Evaluación de Sondeo de Objetos basado en Encuestas (POPE), que prueba la capacidad de los modelos de visión-lenguaje para identificar objetos en imágenes usando etiquetas de MSCOCO.

POPE replantea la alucinación como una tarea de clasificación sí/no, preguntando a los modelos si objetos específicos aparecen en las imágenes, usando prompts como “¿Hay un en la imagen?”

Ejemplos de alucinación de objetos en modelos de visión-lenguaje. Las etiquetas en negrita indican objetos marcados como presentes en las anotaciones originales, mientras que las etiquetas rojas muestran objetos alucinados por los modelos. El ejemplo de la izquierda refleja una evaluación basada en instrucciones tradicionales, mientras que los tres ejemplos de la derecha provienen de diferentes variantes del punto de referencia POPE. Fuente: https://aclanthology.org/2023.emnlp-main.20.pdf

Ejemplos de alucinación de objetos en modelos de visión-lenguaje. Las etiquetas en negrita marcan objetos en las anotaciones originales; las etiquetas rojas destacan objetos alucinados por el modelo. El ejemplo de la izquierda usa una evaluación tradicional, mientras que los tres de la derecha provienen de variantes de POPE. Fuente: https://aclanthology.org/2023.emnlp-main.20.pdf

Los objetos de verdad (respuesta: Sí) se emparejan con objetos inexistentes (respuesta: No), seleccionados aleatoriamente, frecuentemente o basados en co-ocurrencia. Esto permite una evaluación de alucinaciones estable e independiente de prompts sin un análisis complejo de descripciones.

El estudio, RePOPE: Impacto de los Errores de Anotación en el Punto de Referencia POPE, revisa las etiquetas de MSCOCO y encuentra muchos errores o ambigüedades.

Ejemplos del conjunto de datos MSCOCO de 2014. Fuente: https://arxiv.org/pdf/1405.0312

Imágenes del conjunto de datos MSCOCO de 2014. Fuente: https://arxiv.org/pdf/1405.0312

Estos errores alteran las clasificaciones de modelos, con algunos de los mejores desempeños cayendo al evaluarse contra etiquetas corregidas.

Las pruebas en modelos de visión-lenguaje de peso abierto usando el POPE original y el RePOPE reetiquetado muestran cambios significativos en las clasificaciones, especialmente en las puntuaciones F1, con varios modelos cayendo en rendimiento.

El estudio argumenta que los errores de anotación ocultan la verdadera alucinación del modelo, presentando a RePOPE como una herramienta de evaluación más precisa.

En otro ejemplo del nuevo artículo, vemos cómo las descripciones originales de POPE no logran discernir objetos sutiles, como una persona sentada junto a la cabina de un tranvía en la foto de la derecha, o la silla oscurecida por el tenista en la segunda foto desde la izquierda.

Ejemplos del estudio que muestran descripciones de POPE que omiten objetos sutiles, como una persona cerca de la cabina de un tranvía o una silla oscurecida por un tenista.

Metodología y Pruebas

Los investigadores reetiquetaron las anotaciones de MSCOCO con dos revisores humanos por instancia. Los casos ambiguos, como los descritos a continuación, fueron excluidos de las pruebas.

Casos ambiguos, donde las inconsistencias de etiquetado en POPE reflejan límites de categorías poco claros. Por ejemplo, un oso de peluche etiquetado como oso, una motocicleta como bicicleta, o vehículos de aeropuerto como autos. Estos casos se excluyen de RePOPE debido a la naturaleza subjetiva de tales clasificaciones, así como las inconsistencias en las etiquetas originales de MSCOCO.

Casos ambiguos en POPE con etiquetas poco claras, como osos de peluche como osos o motocicletas como bicicletas, excluidos de RePOPE debido a clasificaciones subjetivas e inconsistencias de MSCOCO.

El artículo señala:

“Los anotadores originales pasaron por alto personas en el fondo o detrás de cristales, sillas oscurecidas por un tenista, o una zanahoria tenue en una ensalada de col.”

“Las etiquetas inconsistentes de MSCOCO, como clasificar un oso de peluche como oso o una motocicleta como bicicleta, provienen de definiciones de objetos variables, marcando tales casos como ambiguos.”

Resultados de la re-anotación: las preguntas positivas se comparten en las tres variantes de POPE. Entre las etiquetadas como ‘Sí’ en POPE, el 9.3 por ciento fueron incorrectas y el 13.8 por ciento se clasificaron como ambiguas. Para las preguntas ‘No’, el 1.7 por ciento estaban mal etiquetadas y el 4.3 por ciento eran ambiguas.

Resultados de la re-anotación: En las variantes de POPE, el 9.3% de las etiquetas ‘Sí’ fueron incorrectas, el 13.8% ambiguas; el 1.7% de las etiquetas ‘No’ estaban mal etiquetadas, el 4.3% ambiguas.

El equipo probó modelos de peso abierto, incluyendo InternVL2.5, LLaVA-NeXT, Vicuna, Mistral 7b, Llama, LLaVA-OneVision, Ovis2, PaliGemma-3B y PaliGemma2, en POPE y RePOPE.

Resultados iniciales: la alta tasa de error en las etiquetas positivas originales lleva a una caída brusca en los verdaderos positivos en todos los modelos. Los falsos positivos varían entre subconjuntos, casi duplicándose en el subconjunto aleatorio, pero permaneciendo en gran parte sin cambios en el subconjunto popular, y muestran una ligera disminución en el subconjunto adversario. El reetiquetado tiene un efecto importante en las clasificaciones basadas en F1. Modelos como Ovis2-4B y Ovis2-8B, que tuvieron un buen desempeño en las divisiones popular y adversaria en POPE, también suben a la cima en el subconjunto aleatorio bajo RePOPE. Consulte el PDF fuente para una mejor resolución.

Los resultados muestran que los errores de etiquetas originales causaron una caída en los verdaderos positivos. Los falsos positivos se duplicaron en el subconjunto aleatorio, se mantuvieron estables en el subconjunto popular y disminuyeron ligeramente en el subconjunto adversario. El reetiquetado cambió las clasificaciones F1, con modelos como Ovis2-4B y -8B subiendo a la cima.

Los gráficos muestran que los verdaderos positivos cayeron en todos los modelos, ya que las respuestas correctas a menudo se basaban en etiquetas defectuosas, mientras que los falsos positivos variaron.

En el subconjunto aleatorio de POPE, los falsos positivos casi se duplicaron, revelando objetos presentes pero omitidos en las anotaciones originales. En el subconjunto adversario, los falsos positivos disminuyeron, ya que los objetos ausentes a menudo no estaban etiquetados pero presentes.

La precisión y el recuerdo se vieron afectados, pero las clasificaciones de modelos permanecieron estables. Las puntuaciones F1, la métrica clave de POPE, cambiaron significativamente, con los mejores modelos como InternVL2.5-8B cayendo y Ovis2-4B y -8B subiendo.

Las puntuaciones de precisión fueron menos fiables debido a ejemplos positivos y negativos desiguales en el conjunto de datos corregido.

El estudio enfatiza la necesidad de anotaciones de alta calidad y comparte etiquetas corregidas en GitHub, señalando que RePOPE por sí solo no aborda completamente la saturación de puntos de referencia, ya que los modelos aún obtienen más del 90% en verdaderos positivos y negativos. Se recomiendan puntos de referencia adicionales como DASH-B.

Conclusión

Este estudio, factible debido al pequeño conjunto de datos, destaca los desafíos de escalar a conjuntos de datos de hiperescala, donde aislar datos representativos es difícil y puede sesgar los resultados.

Incluso si es factible, los métodos actuales apuntan a la necesidad de una anotación humana mejor y más extensa.

‘Mejor’ y ‘más’ plantean desafíos distintos. Las plataformas de bajo costo como Amazon Mechanical Turk arriesgan anotaciones de mala calidad, mientras que la subcontratación a diferentes regiones puede no alinearse con el caso de uso previsto del modelo.

Esto sigue siendo un problema central y no resuelto en la economía del aprendizaje automático.

Publicado por primera vez el miércoles, 23 de abril de 2025