TIPSv2 de Google DeepMind: una IA que realmente entiende las imágenes, no solo las ojea

Hogar

Noticias

31 de mayo de 2026

WillWalker

Actualmente, la comprensión de imágenes por parte de la IA presenta una limitación fundamental.

Cuando se le pregunta «¿Qué hay en esta imagen?», puede dar una respuesta detallada. Sin embargo, si se le pregunta «¿Dónde está la pata trasera izquierda del panda?», las respuestas son vagas. No se trata de un defecto de ningún modelo concreto, sino de un problema persistente en todo el ámbito de los grandes modelos de lenguaje visual: una sólida comprensión global, pero una localización local deficiente.

Google DeepMind presentó TIPSv2 en su último artículo, diseñado específicamente para abordar este complejo problema.

Diagrama del método TIPSv2

El equipo de investigación observó un hallazgo contraintuitivo: en tareas de segmentación de alta resolución, los modelos «estudiantes» más pequeños suelen superar a los modelos «profesores» más grandes. Esto ocurre porque la destilación elimina el mecanismo de enmascaramiento, lo que obliga al modelo a aprender cada detalle de toda la imagen, creando una forma de «supervisión de área completa». Motivado por esta idea, TIPSv2 introdujo tres mejoras clave.

En primer lugar, iBOT++. El preentrenamiento tradicional solo calcula la pérdida para las regiones enmascaradas, dejando las áreas visibles en un estado de descuido que provoca la deriva de la semántica local. iBOT++ exige que el modelo proporcione una supervisión precisa sobre todas las áreas visibles, lo que eleva efectivamente la tarea de un «juego de rompecabezas» a «leer atentamente todo el texto». Esta única mejora aumentó el rendimiento de la segmentación sin entrenamiento previo en 14,1 puntos porcentuales.

En segundo lugar, EMA solo para la cabeza. El entrenamiento autosupervisado tradicional requiere mantener en memoria dos modelos grandes casi idénticos, lo que consume muchos recursos. TIPSv2 descubrió que la pérdida contrastiva imagen-texto por sí sola es suficiente para estabilizar la red troncal, por lo que EMA solo necesita aplicarse a la cabeza de proyección final, eliminando la necesidad de duplicar la red troncal. Esto reduce el número de parámetros de entrenamiento en aproximadamente un 42 %, lo que lo hace más rápido sin apenas pérdida de rendimiento.

En tercer lugar, el emparejamiento de texto multigranularidad. Durante el entrenamiento, las descripciones web breves, las descripciones de detalle medio y las descripciones largas generadas por Gemini se mezclan aleatoriamente y se introducen en el modelo, alternando entre tareas fáciles y difíciles. Esto evita que el modelo se relaje en las tareas sencillas, al tiempo que garantiza que no se pase por alto ningún detalle.

Los resultados finales son convincentes. TIPSv2 se sometió a una evaluación congelada en nueve tareas y 20 conjuntos de datos de referencia. La segmentación semántica «zero-shot» alcanzó un nuevo punto de referencia en el sector, mientras que la recuperación y clasificación de imagen-texto superó a los modelos de comparación con un 56 % más de parámetros. Las tareas puramente visuales también se situaron entre las de mejor rendimiento.

El código y los pesos del modelo de TIPSv2 son totalmente de código abierto. Para los equipos que trabajan en imágenes médicas, conducción autónoma, inspección industrial y otros ámbitos que exigen una comprensión de imágenes de alta precisión, merece la pena examinar detenidamente esta solución.

Artículo: https://www.alphaxiv.org/abs/2604.12012

Artículo relacionado

StrictlyVC San Francisco reunirá a líderes de TDK Ventures, Replit y otras empresas El primer evento de StrictlyVC del año llega a San Francisco antes de lo que imaginas. Aún quedan entradas disponibles para nuestro encuentro del 30 de abril en el Centro Cultural Filipino Sentro, que

Notion convierte su espacio de trabajo en un centro para agentes de IA Notion, la empresa de software de productividad, se adentra en la era de los agentes.Durante un anuncio de producto retransmitido en directo el miércoles, Notion —conocida sobre todo por su aplicación

¿Podrías indicarme el título del artículo para reescribirlo? Antes, para conseguir una foto de perfil profesional había que contratar a un fotógrafo, alquilar un estudio y reservar al menos una hora de tu día. Hoy en día, un número cada vez mayor de plataformas

Recomendaciones de temas especiales relacionados

escribiendo

Los mejores herramientas de scripting AI para la radio y los podcasts: Crea anuncios de audio atractivos.

Descubra los mejores herramientas de scripting de IA para la radio y los podcasts en 2026 en XIX.AI. Nuestra lista seleccionada y altamente valorada incluye soluciones poderosas que cambiarán completamente la forma en que crea anuncios de audio atractivos. Compare opciones gratuitas y pagadas mediante pruebas reales y clasificaciones actualizadas semanalmente. ¡Despliegue todo su potencial creativo hoy mismo!

10 herramientas

xix.ai

Negocio

El mejor software de revisión de contratos con IA: detecta al instante las lagunas legales y los riesgos de cumplimiento normativo

Descubre el mejor software de revisión de contratos con IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas que detectan al instante las lagunas legales y los riesgos de cumplimiento normativo. Compara las opciones gratuitas con las de pago gracias a pruebas en condiciones reales y a clasificaciones que se actualizan semanalmente. Encuentra la solución revolucionaria que necesitas para un análisis de contratos seguro y eficiente. Explora ahora la guía definitiva.

10 herramientas

xix.ai

Creación de animación

Generador de anime AI para Donghua: Crea personajes para novelas web y avatares para cómics

Descubra los mejores generadores de anime de IA para donghua en 2026. Nuestra lista seleccionada y calificada incluye herramientas poderosas para crear increíbles personajes para novelas web y avatares de cómics. Compare opciones gratuitas y pagadas a través de pruebas reales. Encuentre su compañero creativo ideal y dé vida a sus historias hoy mismo en XIX.AI.

10 herramientas

xix.ai

Creación de cómics

Las mejores herramientas de coloración automática con IA para manga: aplica colores planos sin ningún error de coherencia

Descubre las mejores herramientas de coloración automática con IA para manga de 2026 en XIX.AI. Nuestra lista seleccionada incluye soluciones revolucionarias y mejor valoradas que aplican colores planos sin ningún error de consistencia, lo que potencia tu productividad. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones actualizadas semanalmente para encontrar la opción perfecta para ti. Aprovecha hoy mismo las ventajas de la IA.

10 herramientas

xix.ai

escribiendo

Los mejores creadores de perfiles de ficción con IA: cómo generar motivaciones y defectos fatales coherentes para los personajes

Descubre los mejores creadores de perfiles de ficción con IA de 2026 para dar vida a personajes profundos. La selección de XIX.AI incluye herramientas de primera categoría y revolucionarias que generan motivaciones coherentes y defectos fatales. Compara las opciones gratuitas con las de pago mediante pruebas en el mundo real. Libera ahora tu potencial narrativo.

10 herramientas

xix.ai

Negocio

El mejor software de optimización de precios con IA: realiza un seguimiento de la competencia y ajusta automáticamente los precios de la tienda

Descubre el mejor software de optimización de precios con IA de 2026 en XIX.AI. Nuestra selección incluye herramientas de primera categoría y revolucionarias que analizan a la competencia y ajustan automáticamente los precios de tu tienda para maximizar los beneficios. Compara las opciones gratuitas con las de pago mediante pruebas reales. Aprovecha ahora tu ventaja competitiva en materia de precios.

10 herramientas

xix.ai