option
Maison
Nouvelles
TIPSv2 de Google DeepMind : une IA qui comprend véritablement les images, et ne se contente pas d'y jeter un simple coup d'œil

TIPSv2 de Google DeepMind : une IA qui comprend véritablement les images, et ne se contente pas d'y jeter un simple coup d'œil

31 mai 2026
47

La compréhension des images par l'IA présente actuellement une limite majeure.

À la question « Que voit-on sur cette image ? », elle peut fournir une réponse détaillée. En revanche, si l'on demande « Où se trouve la patte arrière gauche du panda ? », les réponses sont vagues. Il ne s'agit pas d'une faille propre à un modèle spécifique, mais d'un problème récurrent dans l'ensemble du domaine des grands modèles visuels-linguistiques : une forte compréhension globale, mais une localisation locale faible.

Google DeepMind a présenté TIPSv2 dans son dernier article, spécialement conçu pour résoudre ce problème complexe.

Schéma de la méthode TIPSv2

L'équipe de recherche a fait une observation contre-intuitive : dans les tâches de segmentation fine, les petits modèles « élèves » surpassent souvent les grands modèles « enseignants ». Cela s'explique par le fait que la distillation supprime le mécanisme de masquage, obligeant le modèle à apprendre chaque détail de l'image entière, ce qui crée une forme de « supervision sur toute la surface ». Fort de cette intuition, TIPSv2 a introduit trois améliorations clés.

Premièrement, iBOT++. Le pré-entraînement traditionnel ne calcule la perte que pour les régions masquées, laissant les zones visibles dans un état négligé qui entraîne une dérive de la sémantique locale. iBOT++ exige du modèle qu’il assure une supervision précise sur toutes les zones visibles, faisant passer la tâche d’un « jeu de puzzle » à une « lecture attentive de l’intégralité du texte ». Cette seule amélioration a boosté les performances de segmentation en zéro-shot de 14,1 points de pourcentage.

Deuxièmement, l’EMA « Head-only ». L’entraînement auto-supervisé traditionnel nécessite de conserver en mémoire deux grands modèles presque identiques, ce qui est très gourmand en ressources. TIPSv2 a découvert que la perte contrastive image-texte suffit à elle seule à stabiliser le réseau de base ; l’EMA n’a donc besoin d’être appliquée qu’à la tête de projection finale, éliminant ainsi la nécessité de dupliquer le réseau de base. Cela réduit le nombre de paramètres d’entraînement d’environ 42 %, ce qui accélère le processus sans perte de performance notable.

Troisièmement, l'appariement de textes à granularité multiple. Pendant l'entraînement, des descriptions web courtes, des descriptions moyennement détaillées et des descriptions longues générées par Gemini sont mélangées de manière aléatoire et introduites dans le modèle, en alternant entre des tâches faciles et difficiles. Cela empêche le modèle de se reposer sur ses lauriers lors de tâches simples tout en garantissant qu'aucun détail n'est négligé.

Les résultats finaux sont convaincants. TIPSv2 a fait l’objet d’une évaluation « frozen » sur neuf tâches et 20 ensembles de données de référence. La segmentation sémantique « zero-shot » a établi une nouvelle référence dans le secteur, tandis que la recherche et la classification image-texte ont surpassé les modèles de comparaison comportant 56 % de paramètres en plus. Les tâches purement visuelles se sont également classées parmi les plus performantes.

Le code et les poids du modèle de TIPSv2 sont entièrement open source. Pour les équipes travaillant dans l'imagerie médicale, la conduite autonome, l'inspection industrielle et d'autres domaines exigeant une compréhension d'images de haute précision, cette solution mérite d'être examinée de près.

Article : https://www.alphaxiv.org/abs/2604.12012

Article connexe
Cursor Composer 2 contre Claude Opus 4.6 : un test de performance relance le débat sur la programmation par IA Cursor Composer 2 contre Claude Opus 4.6 : un test de performance relance le débat sur la programmation par IA Le 19 mars, Cursor a officiellement lancé son modèle de codage développé en interne, Composer 2. Cette annonce a immédiatement suscité des discussions au sein de la communauté des développeurs : selon
StrictlyVC San Francisco réunira des dirigeants de TDK Ventures, Replit et d'autres entreprises StrictlyVC San Francisco réunira des dirigeants de TDK Ventures, Replit et d'autres entreprises Le premier événement StrictlyVC de l'année arrive à San Francisco plus tôt que vous ne le pensez. Il reste encore des billets pour notre rencontre du 30 avril au Sentro Filipino Cultural Center,
Notion transforme son espace de travail en une plateforme centralisée pour les agents IA Notion transforme son espace de travail en une plateforme centralisée pour les agents IA Notion, l'éditeur de logiciels de productivité, entre dans l'ère des agents.Lors d'une annonce de produit diffusée en direct mercredi, Notion — surtout connu pour son application de pri
Recommandations de sujets spéciaux liés
en écrivant Meilleurs outils d’scriptage AI pour la radio et la production de podcasts : rédiger des publicités audio captivantes
Meilleurs outils d’scriptage AI pour la radio et la production de podcasts : rédiger des publicités audio captivantes

Découvrez les 20 meilleurs outils de scriptage AI pour la radio et la production de podcasts en 2026 sur XIX.AI. Notre liste, soigneusement sélectionnée et hautement réputée, propose des solutions puissantes et révolutionnaires pour créer rapidement des publicités audio captivantes. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mises à jour chaque semaine. Développez votre potentiel créatif dès aujourd’hui !

10 outils
xix.ai
Entreprise Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité
Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité

Découvrez les meilleurs logiciels d'analyse de contrats basés sur l'IA pour 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée regroupe des outils performants qui détectent instantanément les failles juridiques et les risques de non-conformité. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez la solution qui changera la donne pour une analyse de contrats sécurisée et efficace. Découvrez dès maintenant le guide complet.

10 outils
xix.ai
Création d'animations Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées
Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées

Découvrez les meilleurs générateurs d’animés AI de 2026 pour la création de doublages en chinois. Notre liste, sélectionnée avec soin, propose des outils puissants pour créer des personnages incroyables pour des romans web et des avatars de comics. Comparez les options gratuites et payantes grâce à des tests réels. Trouvez le partenaire créatif idéal et donnez vie à vos histoires dès aujourd’hui sur XIX.AI.

10 outils
xix.ai
Création de bande dessinée Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence
Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils
xix.ai
en écrivant Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales
Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales

Découvrez les meilleurs outils de création de profils de personnages basés sur l'IA de 2026 pour donner de la profondeur à vos personnages. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants, capables de générer des motivations cohérentes et des défauts fatals. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez dès maintenant votre potentiel de narration.

10 outils
xix.ai
Entreprise Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique
Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique

Découvrez les meilleurs logiciels d'optimisation des prix basés sur l'IA pour 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan qui changent la donne : ils surveillent vos concurrents et ajustent automatiquement les prix de votre boutique pour maximiser vos bénéfices. Comparez les options gratuites et payantes grâce à des tests concrets. Prenez dès maintenant une longueur d'avance en matière de tarification.

10 outils
xix.ai
commentaires (0)
0/500
OR