Hogar
Apple presenta RubiCap AI para la descripción de imágenes en medio de las preocupaciones sobre su rendimiento
En el campo de la visión artificial, lograr que la IA observe y describa cada detalle de una imagen con una precisión similar a la humana ha sido durante mucho tiempo un reto fundamental. Recientemente, Apple, en colaboración con la Universidad de Wisconsin-Madison, ha presentado oficialmente un novedoso marco de entrenamiento de IA denominado RubiCap .
Este marco está diseñado específicamente para la «descripción densa de imágenes», con el objetivo de capacitar a la IA para captar y expresar con precisión detalles muy específicos —como «una manzana roja sobre la mesa de madera» o «un peatón en la distancia»— en lugar de ofrecer solo resúmenes genéricos.

Aprendizaje por refuerzo con gran impacto: Qwen2.5 actúa como «árbitro»
La generación de subtítulos de imágenes tradicional suele depender de costosas anotaciones humanas o de grandes modelos propensos a la alucinación, lo que da lugar a una calidad de datos inconsistente. El equipo de investigación de Apple abordó este problema con un innovador enfoque de aprendizaje por refuerzo. El sistema utiliza primero GPT-4 y Gemini 1.5 Pro para generar descripciones candidatas. A continuación, Gemini 1.5 Pro refina los criterios de puntuación, mientras que el modelo Qwen2.5 actúa como árbitro, proporcionando puntuaciones y comentarios.
Esta retroalimentación estructurada y precisa permite al modelo de entrenamiento identificar y corregir claramente los errores, logrando una mayor precisión descriptiva incluso con un menor número de parámetros.
La ventaja del modelo compacto: las tasas de alucinación más bajas superan a los modelos de un billón de parámetros
Los modelos de la serie RubiCap (que van de 2 000 a 7 000 millones de parámetros) entrenados en este marco demostraron una eficiencia excepcional en las evaluaciones. Los datos experimentales revelan que el modelo RubiCap de 7000 millones de parámetros obtuvo las mejores puntuaciones en pruebas a ciegas, con una tasa de error de alucinaciones inferior a la de un modelo grande líder de 720 000 millones de parámetros. Sorprendentemente, la versión mini de 3000 millones de parámetros superó incluso a su homólogo de 7000 millones de parámetros en ciertas métricas.
Artículo relacionado
Zhiyuan WITA pone fin a la interacción «desnuda» con robots con la presentación de su primera declaración de cumplimiento
El sector de la inteligencia incorporada ha alcanzado un hito significativo. Según el último comunicado de la Administración del Ciberespacio de Shanghái, el modelo a gran escala WITA, desarrollado po
Un estudio antropológico relaciona el contenido generado por IA con una disminución del pensamiento humano
Cuando ves que la IA genera al instante un código o un documento bien estructurado y lógicamente claro, ¿te sientes tentado a confiar en él sin pensarlo dos veces? Según AIbase, la empresa líder en IA
Los ministerios del Gobierno británico discrepan sobre las necesidades energéticas de los centros de datos de IA
El Gobierno del Reino Unido se enfrenta a un gran reto: impulsar las energías limpias al tiempo que aspira a convertirse en líder mundial en inteligencia artificial. Sin embargo, se observan graves di
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
En el campo de la visión artificial, lograr que la IA observe y describa cada detalle de una imagen con una precisión similar a la humana ha sido durante mucho tiempo un reto fundamental. Recientemente, Apple, en colaboración con la Universidad de Wisconsin-Madison, ha presentado oficialmente un novedoso marco de entrenamiento de IA denominado
Este marco está diseñado específicamente para la «descripción densa de imágenes», con el objetivo de capacitar a la IA para captar y expresar con precisión detalles muy específicos —como «una manzana roja sobre la mesa de madera» o «un peatón en la distancia»— en lugar de ofrecer solo resúmenes genéricos.

Aprendizaje por refuerzo con gran impacto: Qwen2.5 actúa como «árbitro»
La generación de subtítulos de imágenes tradicional suele depender de costosas anotaciones humanas o de grandes modelos propensos a la alucinación, lo que da lugar a una calidad de datos inconsistente. El equipo de investigación de Apple abordó este problema con un innovador enfoque de aprendizaje por refuerzo. El sistema utiliza primero GPT-4 y Gemini 1.5 Pro para generar descripciones candidatas. A continuación, Gemini 1.5 Pro refina los criterios de puntuación, mientras que el modelo Qwen2.5 actúa como árbitro, proporcionando puntuaciones y comentarios.
Esta retroalimentación estructurada y precisa permite al modelo de entrenamiento identificar y corregir claramente los errores, logrando una mayor precisión descriptiva incluso con un menor número de parámetros.
La ventaja del modelo compacto: las tasas de alucinación más bajas superan a los modelos de un billón de parámetros
Los modelos de la serie RubiCap (que van de 2 000 a 7 000 millones de parámetros) entrenados en este marco demostraron una eficiencia excepcional en las evaluaciones. Los datos experimentales revelan que el modelo RubiCap de 7000 millones de parámetros obtuvo las mejores puntuaciones en pruebas a ciegas, con una tasa de error de alucinaciones inferior a la de un modelo grande líder de 720 000 millones de parámetros. Sorprendentemente, la versión mini de 3000 millones de parámetros superó incluso a su homólogo de 7000 millones de parámetros en ciertas métricas.
Zhiyuan WITA pone fin a la interacción «desnuda» con robots con la presentación de su primera declaración de cumplimiento
El sector de la inteligencia incorporada ha alcanzado un hito significativo. Según el último comunicado de la Administración del Ciberespacio de Shanghái, el modelo a gran escala WITA, desarrollado po
Un estudio antropológico relaciona el contenido generado por IA con una disminución del pensamiento humano
Cuando ves que la IA genera al instante un código o un documento bien estructurado y lógicamente claro, ¿te sientes tentado a confiar en él sin pensarlo dos veces? Según AIbase, la empresa líder en IA
Los ministerios del Gobierno británico discrepan sobre las necesidades energéticas de los centros de datos de IA
El Gobierno del Reino Unido se enfrenta a un gran reto: impulsar las energías limpias al tiempo que aspira a convertirse en líder mundial en inteligencia artificial. Sin embargo, se observan graves di











