Hogar
TIPSv2 de Google DeepMind: una IA que realmente entiende las imágenes, no solo las ojea
Actualmente, la comprensión de imágenes por parte de la IA presenta una limitación fundamental.
Cuando se le pregunta «¿Qué hay en esta imagen?», puede dar una respuesta detallada. Sin embargo, si se le pregunta «¿Dónde está la pata trasera izquierda del panda?», las respuestas son vagas. No se trata de un defecto de ningún modelo concreto, sino de un problema persistente en todo el ámbito de los grandes modelos de lenguaje visual: una sólida comprensión global, pero una localización local deficiente.
Google DeepMind presentó TIPSv2 en su último artículo, diseñado específicamente para abordar este complejo problema.

El equipo de investigación observó un hallazgo contraintuitivo: en tareas de segmentación de alta resolución, los modelos «estudiantes» más pequeños suelen superar a los modelos «profesores» más grandes. Esto ocurre porque la destilación elimina el mecanismo de enmascaramiento, lo que obliga al modelo a aprender cada detalle de toda la imagen, creando una forma de «supervisión de área completa». Motivado por esta idea, TIPSv2 introdujo tres mejoras clave.
En primer lugar, iBOT++. El preentrenamiento tradicional solo calcula la pérdida para las regiones enmascaradas, dejando las áreas visibles en un estado de descuido que provoca la deriva de la semántica local. iBOT++ exige que el modelo proporcione una supervisión precisa sobre todas las áreas visibles, lo que eleva efectivamente la tarea de un «juego de rompecabezas» a «leer atentamente todo el texto». Esta única mejora aumentó el rendimiento de la segmentación sin entrenamiento previo en 14,1 puntos porcentuales.
En segundo lugar, EMA solo para la cabeza. El entrenamiento autosupervisado tradicional requiere mantener en memoria dos modelos grandes casi idénticos, lo que consume muchos recursos. TIPSv2 descubrió que la pérdida contrastiva imagen-texto por sí sola es suficiente para estabilizar la red troncal, por lo que EMA solo necesita aplicarse a la cabeza de proyección final, eliminando la necesidad de duplicar la red troncal. Esto reduce el número de parámetros de entrenamiento en aproximadamente un 42 %, lo que lo hace más rápido sin apenas pérdida de rendimiento.
En tercer lugar, el emparejamiento de texto multigranularidad. Durante el entrenamiento, las descripciones web breves, las descripciones de detalle medio y las descripciones largas generadas por Gemini se mezclan aleatoriamente y se introducen en el modelo, alternando entre tareas fáciles y difíciles. Esto evita que el modelo se relaje en las tareas sencillas, al tiempo que garantiza que no se pase por alto ningún detalle.
Los resultados finales son convincentes. TIPSv2 se sometió a una evaluación congelada en nueve tareas y 20 conjuntos de datos de referencia. La segmentación semántica «zero-shot» alcanzó un nuevo punto de referencia en el sector, mientras que la recuperación y clasificación de imagen-texto superó a los modelos de comparación con un 56 % más de parámetros. Las tareas puramente visuales también se situaron entre las de mejor rendimiento.
El código y los pesos del modelo de TIPSv2 son totalmente de código abierto. Para los equipos que trabajan en imágenes médicas, conducción autónoma, inspección industrial y otros ámbitos que exigen una comprensión de imágenes de alta precisión, merece la pena examinar detenidamente esta solución.
Artículo: https://www.alphaxiv.org/abs/2604.12012
Artículo relacionado
StrictlyVC San Francisco reunirá a líderes de TDK Ventures, Replit y otras empresas
El primer evento de StrictlyVC del año llega a San Francisco antes de lo que imaginas. Aún quedan entradas disponibles para nuestro encuentro del 30 de abril en el Centro Cultural Filipino Sentro, que
Notion convierte su espacio de trabajo en un centro para agentes de IA
Notion, la empresa de software de productividad, se adentra en la era de los agentes.Durante un anuncio de producto retransmitido en directo el miércoles, Notion —conocida sobre todo por su aplicación
¿Podrías indicarme el título del artículo para reescribirlo?
Antes, para conseguir una foto de perfil profesional había que contratar a un fotógrafo, alquilar un estudio y reservar al menos una hora de tu día. Hoy en día, un número cada vez mayor de plataformas
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Actualmente, la comprensión de imágenes por parte de la IA presenta una limitación fundamental.
Cuando se le pregunta «¿Qué hay en esta imagen?», puede dar una respuesta detallada. Sin embargo, si se le pregunta «¿Dónde está la pata trasera izquierda del panda?», las respuestas son vagas. No se trata de un defecto de ningún modelo concreto, sino de un problema persistente en todo el ámbito de los grandes modelos de lenguaje visual: una sólida comprensión global, pero una localización local deficiente.
Google DeepMind presentó TIPSv2 en su último artículo, diseñado específicamente para abordar este complejo problema.

El equipo de investigación observó un hallazgo contraintuitivo: en tareas de segmentación de alta resolución, los modelos «estudiantes» más pequeños suelen superar a los modelos «profesores» más grandes. Esto ocurre porque la destilación elimina el mecanismo de enmascaramiento, lo que obliga al modelo a aprender cada detalle de toda la imagen, creando una forma de «supervisión de área completa». Motivado por esta idea, TIPSv2 introdujo tres mejoras clave.
En primer lugar, iBOT++. El preentrenamiento tradicional solo calcula la pérdida para las regiones enmascaradas, dejando las áreas visibles en un estado de descuido que provoca la deriva de la semántica local. iBOT++ exige que el modelo proporcione una supervisión precisa sobre todas las áreas visibles, lo que eleva efectivamente la tarea de un «juego de rompecabezas» a «leer atentamente todo el texto». Esta única mejora aumentó el rendimiento de la segmentación sin entrenamiento previo en 14,1 puntos porcentuales.
En segundo lugar, EMA solo para la cabeza. El entrenamiento autosupervisado tradicional requiere mantener en memoria dos modelos grandes casi idénticos, lo que consume muchos recursos. TIPSv2 descubrió que la pérdida contrastiva imagen-texto por sí sola es suficiente para estabilizar la red troncal, por lo que EMA solo necesita aplicarse a la cabeza de proyección final, eliminando la necesidad de duplicar la red troncal. Esto reduce el número de parámetros de entrenamiento en aproximadamente un 42 %, lo que lo hace más rápido sin apenas pérdida de rendimiento.
En tercer lugar, el emparejamiento de texto multigranularidad. Durante el entrenamiento, las descripciones web breves, las descripciones de detalle medio y las descripciones largas generadas por Gemini se mezclan aleatoriamente y se introducen en el modelo, alternando entre tareas fáciles y difíciles. Esto evita que el modelo se relaje en las tareas sencillas, al tiempo que garantiza que no se pase por alto ningún detalle.
Los resultados finales son convincentes. TIPSv2 se sometió a una evaluación congelada en nueve tareas y 20 conjuntos de datos de referencia. La segmentación semántica «zero-shot» alcanzó un nuevo punto de referencia en el sector, mientras que la recuperación y clasificación de imagen-texto superó a los modelos de comparación con un 56 % más de parámetros. Las tareas puramente visuales también se situaron entre las de mejor rendimiento.
El código y los pesos del modelo de TIPSv2 son totalmente de código abierto. Para los equipos que trabajan en imágenes médicas, conducción autónoma, inspección industrial y otros ámbitos que exigen una comprensión de imágenes de alta precisión, merece la pena examinar detenidamente esta solución.
Artículo: https://www.alphaxiv.org/abs/2604.12012
StrictlyVC San Francisco reunirá a líderes de TDK Ventures, Replit y otras empresas
El primer evento de StrictlyVC del año llega a San Francisco antes de lo que imaginas. Aún quedan entradas disponibles para nuestro encuentro del 30 de abril en el Centro Cultural Filipino Sentro, que
Notion convierte su espacio de trabajo en un centro para agentes de IA
Notion, la empresa de software de productividad, se adentra en la era de los agentes.Durante un anuncio de producto retransmitido en directo el miércoles, Notion —conocida sobre todo por su aplicación
¿Podrías indicarme el título del artículo para reescribirlo?
Antes, para conseguir una foto de perfil profesional había que contratar a un fotógrafo, alquilar un estudio y reservar al menos una hora de tu día. Hoy en día, un número cada vez mayor de plataformas











