Maison
TIPSv2 de Google DeepMind : une IA qui comprend véritablement les images, et ne se contente pas d'y jeter un simple coup d'œil
La compréhension des images par l'IA présente actuellement une limite majeure.
À la question « Que voit-on sur cette image ? », elle peut fournir une réponse détaillée. En revanche, si l'on demande « Où se trouve la patte arrière gauche du panda ? », les réponses sont vagues. Il ne s'agit pas d'une faille propre à un modèle spécifique, mais d'un problème récurrent dans l'ensemble du domaine des grands modèles visuels-linguistiques : une forte compréhension globale, mais une localisation locale faible.
Google DeepMind a présenté TIPSv2 dans son dernier article, spécialement conçu pour résoudre ce problème complexe.

L'équipe de recherche a fait une observation contre-intuitive : dans les tâches de segmentation fine, les petits modèles « élèves » surpassent souvent les grands modèles « enseignants ». Cela s'explique par le fait que la distillation supprime le mécanisme de masquage, obligeant le modèle à apprendre chaque détail de l'image entière, ce qui crée une forme de « supervision sur toute la surface ». Fort de cette intuition, TIPSv2 a introduit trois améliorations clés.
Premièrement, iBOT++. Le pré-entraînement traditionnel ne calcule la perte que pour les régions masquées, laissant les zones visibles dans un état négligé qui entraîne une dérive de la sémantique locale. iBOT++ exige du modèle qu’il assure une supervision précise sur toutes les zones visibles, faisant passer la tâche d’un « jeu de puzzle » à une « lecture attentive de l’intégralité du texte ». Cette seule amélioration a boosté les performances de segmentation en zéro-shot de 14,1 points de pourcentage.
Deuxièmement, l’EMA « Head-only ». L’entraînement auto-supervisé traditionnel nécessite de conserver en mémoire deux grands modèles presque identiques, ce qui est très gourmand en ressources. TIPSv2 a découvert que la perte contrastive image-texte suffit à elle seule à stabiliser le réseau de base ; l’EMA n’a donc besoin d’être appliquée qu’à la tête de projection finale, éliminant ainsi la nécessité de dupliquer le réseau de base. Cela réduit le nombre de paramètres d’entraînement d’environ 42 %, ce qui accélère le processus sans perte de performance notable.
Troisièmement, l'appariement de textes à granularité multiple. Pendant l'entraînement, des descriptions web courtes, des descriptions moyennement détaillées et des descriptions longues générées par Gemini sont mélangées de manière aléatoire et introduites dans le modèle, en alternant entre des tâches faciles et difficiles. Cela empêche le modèle de se reposer sur ses lauriers lors de tâches simples tout en garantissant qu'aucun détail n'est négligé.
Les résultats finaux sont convaincants. TIPSv2 a fait l’objet d’une évaluation « frozen » sur neuf tâches et 20 ensembles de données de référence. La segmentation sémantique « zero-shot » a établi une nouvelle référence dans le secteur, tandis que la recherche et la classification image-texte ont surpassé les modèles de comparaison comportant 56 % de paramètres en plus. Les tâches purement visuelles se sont également classées parmi les plus performantes.
Le code et les poids du modèle de TIPSv2 sont entièrement open source. Pour les équipes travaillant dans l'imagerie médicale, la conduite autonome, l'inspection industrielle et d'autres domaines exigeant une compréhension d'images de haute précision, cette solution mérite d'être examinée de près.
Article : https://www.alphaxiv.org/abs/2604.12012
Article connexe
Cursor Composer 2 contre Claude Opus 4.6 : un test de performance relance le débat sur la programmation par IA
Le 19 mars, Cursor a officiellement lancé son modèle de codage développé en interne, Composer 2. Cette annonce a immédiatement suscité des discussions au sein de la communauté des développeurs : selon
StrictlyVC San Francisco réunira des dirigeants de TDK Ventures, Replit et d'autres entreprises
Le premier événement StrictlyVC de l'année arrive à San Francisco plus tôt que vous ne le pensez. Il reste encore des billets pour notre rencontre du 30 avril au Sentro Filipino Cultural Center,
Notion transforme son espace de travail en une plateforme centralisée pour les agents IA
Notion, l'éditeur de logiciels de productivité, entre dans l'ère des agents.Lors d'une annonce de produit diffusée en direct mercredi, Notion — surtout connu pour son application de pri
Recommandations de sujets spéciaux liés
commentaires (0)
La compréhension des images par l'IA présente actuellement une limite majeure.
À la question « Que voit-on sur cette image ? », elle peut fournir une réponse détaillée. En revanche, si l'on demande « Où se trouve la patte arrière gauche du panda ? », les réponses sont vagues. Il ne s'agit pas d'une faille propre à un modèle spécifique, mais d'un problème récurrent dans l'ensemble du domaine des grands modèles visuels-linguistiques : une forte compréhension globale, mais une localisation locale faible.
Google DeepMind a présenté TIPSv2 dans son dernier article, spécialement conçu pour résoudre ce problème complexe.

L'équipe de recherche a fait une observation contre-intuitive : dans les tâches de segmentation fine, les petits modèles « élèves » surpassent souvent les grands modèles « enseignants ». Cela s'explique par le fait que la distillation supprime le mécanisme de masquage, obligeant le modèle à apprendre chaque détail de l'image entière, ce qui crée une forme de « supervision sur toute la surface ». Fort de cette intuition, TIPSv2 a introduit trois améliorations clés.
Premièrement, iBOT++. Le pré-entraînement traditionnel ne calcule la perte que pour les régions masquées, laissant les zones visibles dans un état négligé qui entraîne une dérive de la sémantique locale. iBOT++ exige du modèle qu’il assure une supervision précise sur toutes les zones visibles, faisant passer la tâche d’un « jeu de puzzle » à une « lecture attentive de l’intégralité du texte ». Cette seule amélioration a boosté les performances de segmentation en zéro-shot de 14,1 points de pourcentage.
Deuxièmement, l’EMA « Head-only ». L’entraînement auto-supervisé traditionnel nécessite de conserver en mémoire deux grands modèles presque identiques, ce qui est très gourmand en ressources. TIPSv2 a découvert que la perte contrastive image-texte suffit à elle seule à stabiliser le réseau de base ; l’EMA n’a donc besoin d’être appliquée qu’à la tête de projection finale, éliminant ainsi la nécessité de dupliquer le réseau de base. Cela réduit le nombre de paramètres d’entraînement d’environ 42 %, ce qui accélère le processus sans perte de performance notable.
Troisièmement, l'appariement de textes à granularité multiple. Pendant l'entraînement, des descriptions web courtes, des descriptions moyennement détaillées et des descriptions longues générées par Gemini sont mélangées de manière aléatoire et introduites dans le modèle, en alternant entre des tâches faciles et difficiles. Cela empêche le modèle de se reposer sur ses lauriers lors de tâches simples tout en garantissant qu'aucun détail n'est négligé.
Les résultats finaux sont convaincants. TIPSv2 a fait l’objet d’une évaluation « frozen » sur neuf tâches et 20 ensembles de données de référence. La segmentation sémantique « zero-shot » a établi une nouvelle référence dans le secteur, tandis que la recherche et la classification image-texte ont surpassé les modèles de comparaison comportant 56 % de paramètres en plus. Les tâches purement visuelles se sont également classées parmi les plus performantes.
Le code et les poids du modèle de TIPSv2 sont entièrement open source. Pour les équipes travaillant dans l'imagerie médicale, la conduite autonome, l'inspection industrielle et d'autres domaines exigeant une compréhension d'images de haute précision, cette solution mérite d'être examinée de près.
Article : https://www.alphaxiv.org/abs/2604.12012
Cursor Composer 2 contre Claude Opus 4.6 : un test de performance relance le débat sur la programmation par IA
Le 19 mars, Cursor a officiellement lancé son modèle de codage développé en interne, Composer 2. Cette annonce a immédiatement suscité des discussions au sein de la communauté des développeurs : selon
StrictlyVC San Francisco réunira des dirigeants de TDK Ventures, Replit et d'autres entreprises
Le premier événement StrictlyVC de l'année arrive à San Francisco plus tôt que vous ne le pensez. Il reste encore des billets pour notre rencontre du 30 avril au Sentro Filipino Cultural Center,
Notion transforme son espace de travail en une plateforme centralisée pour les agents IA
Notion, l'éditeur de logiciels de productivité, entre dans l'ère des agents.Lors d'une annonce de produit diffusée en direct mercredi, Notion — surtout connu pour son application de pri











