Lar
TIPSv2 do Google DeepMind: uma IA que realmente compreende imagens, e não apenas as analisa superficialmente
Atualmente, a compreensão de imagens por IA apresenta uma limitação fundamental.
Quando questionada com “O que há nesta imagem?”, ela pode fornecer uma resposta detalhada. No entanto, perguntar “Onde está a pata traseira esquerda do panda?” leva a respostas vagas. Isso não é uma falha em nenhum modelo específico, mas uma questão persistente em todo o domínio dos grandes modelos de linguagem visual: forte compreensão global, mas fraca localização local.
O Google DeepMind apresentou o TIPSv2 em seu artigo mais recente, projetado especificamente para lidar com esse problema desafiador.

A equipe de pesquisa observou uma descoberta contraintuitiva: em tarefas de segmentação refinada, modelos alunos menores frequentemente superam os modelos professores maiores. Isso ocorre porque a destilação remove o mecanismo de mascaramento, obrigando o modelo a aprender cada detalhe da imagem inteira, criando uma forma de “supervisão de área total”. Motivado por essa percepção, o TIPSv2 introduziu três melhorias principais.
Primeiro, o iBOT++. O pré-treinamento tradicional calcula a perda apenas para regiões mascaradas, deixando as áreas visíveis em um estado negligenciado que causa o desvio da semântica local. O iBOT++ exige que o modelo forneça supervisão precisa sobre todas as áreas visíveis, efetivamente elevando a tarefa de um “jogo de quebra-cabeça” para “ler cuidadosamente o texto inteiro”. Essa única melhoria impulsionou o desempenho da segmentação zero-shot em 14,1 pontos percentuais.
Segundo, EMA apenas para a cabeça. O treinamento auto-supervisionado tradicional exige manter dois modelos grandes quase idênticos na memória, o que consome muitos recursos. O TIPSv2 descobriu que a perda contrastiva imagem-texto por si só é suficiente para estabilizar a rede backbone, de modo que o EMA precisa ser aplicado apenas à cabeça de projeção final, eliminando a necessidade de duplicar a backbone. Isso reduz a contagem de parâmetros de treinamento em cerca de 42%, tornando-o mais rápido quase sem perda de desempenho.
Terceiro, emparelhamento de texto com granularidade múltipla. Durante o treinamento, descrições curtas da web, descrições de detalhe médio e descrições longas geradas pelo Gemini são misturadas aleatoriamente e alimentadas no modelo, alternando entre tarefas fáceis e difíceis. Isso impede que o modelo se acomode em tarefas simples, ao mesmo tempo em que garante que nenhum detalhe seja negligenciado.
Os resultados finais são impressionantes. O TIPSv2 passou por uma avaliação congelada em nove tarefas e 20 conjuntos de dados de referência. A segmentação semântica zero-shot alcançou um novo benchmark do setor, enquanto a recuperação e classificação de imagem-texto superaram os modelos de comparação com 56% mais parâmetros. Tarefas puramente visuais também se destacaram entre as de melhor desempenho.
O código e os pesos do modelo do TIPSv2 são totalmente de código aberto. Para equipes que trabalham com imagens médicas, direção autônoma, inspeção industrial e outros domínios que exigem compreensão de imagens de alta precisão, vale a pena dar uma olhada mais de perto nessa solução.
Artigo: https://www.alphaxiv.org/abs/2604.12012
Artigo relacionado
A Notion transforma seu espaço de trabalho em um centro para agentes de IA
A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor
Você poderia me passar o título do artigo para que eu possa reescrevê-lo?
Antigamente, tirar uma foto profissional significava contratar um fotógrafo, alugar um estúdio e reservar pelo menos uma hora do seu dia. Hoje, um número crescente de plataformas baseadas em IA promet
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es
Recomendações de tópicos especiais relacionados
Comentários (0)
Atualmente, a compreensão de imagens por IA apresenta uma limitação fundamental.
Quando questionada com “O que há nesta imagem?”, ela pode fornecer uma resposta detalhada. No entanto, perguntar “Onde está a pata traseira esquerda do panda?” leva a respostas vagas. Isso não é uma falha em nenhum modelo específico, mas uma questão persistente em todo o domínio dos grandes modelos de linguagem visual: forte compreensão global, mas fraca localização local.
O Google DeepMind apresentou o TIPSv2 em seu artigo mais recente, projetado especificamente para lidar com esse problema desafiador.

A equipe de pesquisa observou uma descoberta contraintuitiva: em tarefas de segmentação refinada, modelos alunos menores frequentemente superam os modelos professores maiores. Isso ocorre porque a destilação remove o mecanismo de mascaramento, obrigando o modelo a aprender cada detalhe da imagem inteira, criando uma forma de “supervisão de área total”. Motivado por essa percepção, o TIPSv2 introduziu três melhorias principais.
Primeiro, o iBOT++. O pré-treinamento tradicional calcula a perda apenas para regiões mascaradas, deixando as áreas visíveis em um estado negligenciado que causa o desvio da semântica local. O iBOT++ exige que o modelo forneça supervisão precisa sobre todas as áreas visíveis, efetivamente elevando a tarefa de um “jogo de quebra-cabeça” para “ler cuidadosamente o texto inteiro”. Essa única melhoria impulsionou o desempenho da segmentação zero-shot em 14,1 pontos percentuais.
Segundo, EMA apenas para a cabeça. O treinamento auto-supervisionado tradicional exige manter dois modelos grandes quase idênticos na memória, o que consome muitos recursos. O TIPSv2 descobriu que a perda contrastiva imagem-texto por si só é suficiente para estabilizar a rede backbone, de modo que o EMA precisa ser aplicado apenas à cabeça de projeção final, eliminando a necessidade de duplicar a backbone. Isso reduz a contagem de parâmetros de treinamento em cerca de 42%, tornando-o mais rápido quase sem perda de desempenho.
Terceiro, emparelhamento de texto com granularidade múltipla. Durante o treinamento, descrições curtas da web, descrições de detalhe médio e descrições longas geradas pelo Gemini são misturadas aleatoriamente e alimentadas no modelo, alternando entre tarefas fáceis e difíceis. Isso impede que o modelo se acomode em tarefas simples, ao mesmo tempo em que garante que nenhum detalhe seja negligenciado.
Os resultados finais são impressionantes. O TIPSv2 passou por uma avaliação congelada em nove tarefas e 20 conjuntos de dados de referência. A segmentação semântica zero-shot alcançou um novo benchmark do setor, enquanto a recuperação e classificação de imagem-texto superaram os modelos de comparação com 56% mais parâmetros. Tarefas puramente visuais também se destacaram entre as de melhor desempenho.
O código e os pesos do modelo do TIPSv2 são totalmente de código aberto. Para equipes que trabalham com imagens médicas, direção autônoma, inspeção industrial e outros domínios que exigem compreensão de imagens de alta precisão, vale a pena dar uma olhada mais de perto nessa solução.
Artigo: https://www.alphaxiv.org/abs/2604.12012
A Notion transforma seu espaço de trabalho em um centro para agentes de IA
A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor
Você poderia me passar o título do artigo para que eu possa reescrevê-lo?
Antigamente, tirar uma foto profissional significava contratar um fotógrafo, alugar um estúdio e reservar pelo menos uma hora do seu dia. Hoje, um número crescente de plataformas baseadas em IA promet
A ElevenLabs anuncia a BlackRock, Jamie Foxx e Eva Longoria como novos investidores
A ElevenLabs, empresa especializada em IA de voz, revelou novos investidores em sua rodada de financiamento da Série D, no valor de US$ 500 milhões, anunciada originalmente em fevereiro. Entre eles es











