TIPSv2 do Google DeepMind: uma IA que realmente compreende imagens, e não apenas as analisa superficialmente

Lar

Notícias

31 de Maio de 2026

WillWalker

Atualmente, a compreensão de imagens por IA apresenta uma limitação fundamental.

Quando questionada com “O que há nesta imagem?”, ela pode fornecer uma resposta detalhada. No entanto, perguntar “Onde está a pata traseira esquerda do panda?” leva a respostas vagas. Isso não é uma falha em nenhum modelo específico, mas uma questão persistente em todo o domínio dos grandes modelos de linguagem visual: forte compreensão global, mas fraca localização local.

O Google DeepMind apresentou o TIPSv2 em seu artigo mais recente, projetado especificamente para lidar com esse problema desafiador.

Diagrama do método TIPSv2

A equipe de pesquisa observou uma descoberta contraintuitiva: em tarefas de segmentação refinada, modelos alunos menores frequentemente superam os modelos professores maiores. Isso ocorre porque a destilação remove o mecanismo de mascaramento, obrigando o modelo a aprender cada detalhe da imagem inteira, criando uma forma de “supervisão de área total”. Motivado por essa percepção, o TIPSv2 introduziu três melhorias principais.

Primeiro, o iBOT++. O pré-treinamento tradicional calcula a perda apenas para regiões mascaradas, deixando as áreas visíveis em um estado negligenciado que causa o desvio da semântica local. O iBOT++ exige que o modelo forneça supervisão precisa sobre todas as áreas visíveis, efetivamente elevando a tarefa de um “jogo de quebra-cabeça” para “ler cuidadosamente o texto inteiro”. Essa única melhoria impulsionou o desempenho da segmentação zero-shot em 14,1 pontos percentuais.

Segundo, EMA apenas para a cabeça. O treinamento auto-supervisionado tradicional exige manter dois modelos grandes quase idênticos na memória, o que consome muitos recursos. O TIPSv2 descobriu que a perda contrastiva imagem-texto por si só é suficiente para estabilizar a rede backbone, de modo que o EMA precisa ser aplicado apenas à cabeça de projeção final, eliminando a necessidade de duplicar a backbone. Isso reduz a contagem de parâmetros de treinamento em cerca de 42%, tornando-o mais rápido quase sem perda de desempenho.

Terceiro, emparelhamento de texto com granularidade múltipla. Durante o treinamento, descrições curtas da web, descrições de detalhe médio e descrições longas geradas pelo Gemini são misturadas aleatoriamente e alimentadas no modelo, alternando entre tarefas fáceis e difíceis. Isso impede que o modelo se acomode em tarefas simples, ao mesmo tempo em que garante que nenhum detalhe seja negligenciado.

Os resultados finais são impressionantes. O TIPSv2 passou por uma avaliação congelada em nove tarefas e 20 conjuntos de dados de referência. A segmentação semântica zero-shot alcançou um novo benchmark do setor, enquanto a recuperação e classificação de imagem-texto superaram os modelos de comparação com 56% mais parâmetros. Tarefas puramente visuais também se destacaram entre as de melhor desempenho.

O código e os pesos do modelo do TIPSv2 são totalmente de código aberto. Para equipes que trabalham com imagens médicas, direção autônoma, inspeção industrial e outros domínios que exigem compreensão de imagens de alta precisão, vale a pena dar uma olhada mais de perto nessa solução.

Artigo: https://www.alphaxiv.org/abs/2604.12012

Artigo relacionado

A Notion transforma seu espaço de trabalho em um centro para agentes de IA A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor

Você poderia me passar o título do artigo para que eu possa reescrevê-lo? Antigamente, tirar uma foto profissional significava contratar um fotógrafo, alugar um estúdio e reservar pelo menos uma hora do seu dia. Hoje, um número crescente de plataformas baseadas em IA promet

A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es

Recomendações de tópicos especiais relacionados

Negócios

O melhor software de revisão de contratos com IA: identifique lacunas jurídicas e riscos de conformidade instantaneamente

Descubra os melhores softwares de análise de contratos com IA de 2026 no XIX.AI. Nossa lista, cuidadosamente selecionada e com as melhores avaliações, apresenta ferramentas poderosas que identificam instantaneamente lacunas jurídicas e riscos de conformidade. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre a solução revolucionária para uma análise segura e eficiente de contratos. Explore agora o guia definitivo.

10 ferramentas

xix.ai

Criação de Animação

Gerador de Animações AI para Donghua: Crie Personagens para Romances Online e Avatares para Quadrinhos

Descubra os melhores geradores de animações AI de 2026 para a criação de donghua. Nossa lista selecionada apresenta ferramentas poderosas para criar personagens incríveis para romances online e avatares para quadrinhos. Compare opções gratuitas e pagas com testes reais. Encontre o parceiro criativo perfeito para dar vida às suas histórias hoje mesmo no XIX.AI.

10 ferramentas

xix.ai

Criação de quadrinhos

As melhores ferramentas de colorização automática com IA para mangás: aplique cores planas sem erros de consistência

Descubra as melhores ferramentas de colorização automática por IA para mangás de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções de ponta e revolucionárias que aplicam cores planas sem nenhum erro de consistência, aumentando sua produtividade. Explore comparações entre versões gratuitas e pagas, testes práticos e rankings atualizados semanalmente para encontrar a opção ideal para você. Aproveite hoje mesmo as vantagens da IA.

10 ferramentas

xix.ai

escrita

Os melhores criadores de perfis de ficção com IA: gerar motivações consistentes para personagens e falhas fatais

Descubra os melhores criadores de perfis de ficção com IA de 2026 para criar personagens complexos. A lista selecionada pela XIX.AI apresenta ferramentas de ponta e revolucionárias que geram motivações consistentes e falhas fatais. Compare as opções gratuitas com as pagas por meio de testes práticos. Liberte agora o seu potencial narrativo.

10 ferramentas

xix.ai

Negócios

Os melhores softwares de otimização de preços com IA: acompanhe os concorrentes e ajuste automaticamente os preços da loja

Descubra os melhores softwares de otimização de preços com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias que monitoram os concorrentes e ajustam automaticamente os preços da sua loja para maximizar o lucro. Compare opções gratuitas e pagas com testes práticos. Obtenha sua vantagem competitiva em preços agora mesmo.

10 ferramentas

xix.ai

código

Os melhores revisores de código com IA: automatize a conformidade com o código limpo e refatore arquivos de repositórios legados

Descubra os melhores revisores de código com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias para automatizar a conformidade com o código limpo e refatorar arquivos de repositórios legados. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Obtenha sua vantagem com IA hoje mesmo.

10 ferramentas

xix.ai