Lar
A Apple apresenta o RubiCap AI para descrições de imagens em meio a preocupações com o desempenho
Na visão computacional, permitir que a IA observe e descreva cada detalhe de uma imagem com precisão semelhante à humana tem sido, há muito tempo, um dos principais desafios. Recentemente, a Apple, em colaboração com a Universidade de Wisconsin-Madison, lançou oficialmente uma nova estrutura de treinamento de IA chamada RubiCap .
Essa estrutura foi projetada especificamente para “legendagem densa de imagens”, com o objetivo de capacitar a IA a capturar e articular com precisão detalhes minuciosos — como “uma maçã vermelha sobre a mesa de madeira” ou “um pedestre à distância” — em vez de oferecer apenas resumos genéricos.

Aprendizado por reforço com grande impacto: Qwen2.5 atua como o “árbitro”
A legenda de imagens tradicional geralmente depende de anotações humanas dispendiosas ou de grandes modelos propensos a alucinações, resultando em qualidade de dados inconsistente. A equipe de pesquisa da Apple abordou isso com uma abordagem inovadora de aprendizado por reforço. O sistema primeiro usa o GPT-4 e o Gemini 1.5 Pro para gerar descrições candidatas. O Gemini 1.5 Pro então refina os critérios de pontuação, enquanto o modelo Qwen2.5 atua como um árbitro, fornecendo pontuações e feedback.
Esse feedback estruturado e preciso permite que o modelo de treinamento identifique e corrija erros com clareza, alcançando maior precisão descritiva mesmo com um número menor de parâmetros.
A vantagem do modelo compacto: taxas de alucinação mais baixas superam modelos com trilhões de parâmetros
Os modelos da série RubiCap (variando de 2 bilhões a 7 bilhões de parâmetros) treinados nessa estrutura demonstraram eficiência excepcional nas avaliações. Dados experimentais revelam que o modelo RubiCap de 7 bilhões de parâmetros alcançou as melhores pontuações em testes cegos, com uma taxa de erro de alucinação inferior à de um modelo grande líder de 720 bilhões de parâmetros. Notavelmente, a versão mini de 3 bilhões de parâmetros chegou a superar sua contraparte de 7 bilhões de parâmetros em certas métricas.
Artigo relacionado
Estudo da Anthropic associa conteúdo de IA bem elaborado à redução do raciocínio humano
Quando você vê a IA produzir instantaneamente um código ou documento bem estruturado e logicamente claro, você fica tentado a confiar nela sem pensar duas vezes? De acordo com a AIbase, a Anthropic, e
Departamentos do governo britânico entram em conflito sobre as necessidades energéticas dos centros de dados de IA
O governo do Reino Unido enfrenta um grande desafio: promover a energia limpa e, ao mesmo tempo, aspirar a se tornar líder global em inteligência artificial. No entanto, observam-se sérias inconsistên
A Administração do Ciberespaço da China exige a identificação de vídeos curtos gerados por IA e de ficção
A Administração do Ciberespaço da China lançou um plano abrangente para padronizar a rotulagem de conteúdos de vídeos curtos, exigindo que as plataformas ofereçam seis rótulos obrigatórios — incluindo
Recomendações de tópicos especiais relacionados
Comentários (0)
Na visão computacional, permitir que a IA observe e descreva cada detalhe de uma imagem com precisão semelhante à humana tem sido, há muito tempo, um dos principais desafios. Recentemente, a Apple, em colaboração com a Universidade de Wisconsin-Madison, lançou oficialmente uma nova estrutura de treinamento de IA chamada
Essa estrutura foi projetada especificamente para “legendagem densa de imagens”, com o objetivo de capacitar a IA a capturar e articular com precisão detalhes minuciosos — como “uma maçã vermelha sobre a mesa de madeira” ou “um pedestre à distância” — em vez de oferecer apenas resumos genéricos.

Aprendizado por reforço com grande impacto: Qwen2.5 atua como o “árbitro”
A legenda de imagens tradicional geralmente depende de anotações humanas dispendiosas ou de grandes modelos propensos a alucinações, resultando em qualidade de dados inconsistente. A equipe de pesquisa da Apple abordou isso com uma abordagem inovadora de aprendizado por reforço. O sistema primeiro usa o GPT-4 e o Gemini 1.5 Pro para gerar descrições candidatas. O Gemini 1.5 Pro então refina os critérios de pontuação, enquanto o modelo Qwen2.5 atua como um árbitro, fornecendo pontuações e feedback.
Esse feedback estruturado e preciso permite que o modelo de treinamento identifique e corrija erros com clareza, alcançando maior precisão descritiva mesmo com um número menor de parâmetros.
A vantagem do modelo compacto: taxas de alucinação mais baixas superam modelos com trilhões de parâmetros
Os modelos da série RubiCap (variando de 2 bilhões a 7 bilhões de parâmetros) treinados nessa estrutura demonstraram eficiência excepcional nas avaliações. Dados experimentais revelam que o modelo RubiCap de 7 bilhões de parâmetros alcançou as melhores pontuações em testes cegos, com uma taxa de erro de alucinação inferior à de um modelo grande líder de 720 bilhões de parâmetros. Notavelmente, a versão mini de 3 bilhões de parâmetros chegou a superar sua contraparte de 7 bilhões de parâmetros em certas métricas.
Estudo da Anthropic associa conteúdo de IA bem elaborado à redução do raciocínio humano
Quando você vê a IA produzir instantaneamente um código ou documento bem estruturado e logicamente claro, você fica tentado a confiar nela sem pensar duas vezes? De acordo com a AIbase, a Anthropic, e
Departamentos do governo britânico entram em conflito sobre as necessidades energéticas dos centros de dados de IA
O governo do Reino Unido enfrenta um grande desafio: promover a energia limpa e, ao mesmo tempo, aspirar a se tornar líder global em inteligência artificial. No entanto, observam-se sérias inconsistên
A Administração do Ciberespaço da China exige a identificação de vídeos curtos gerados por IA e de ficção
A Administração do Ciberespaço da China lançou um plano abrangente para padronizar a rotulagem de conteúdos de vídeos curtos, exigindo que as plataformas ofereçam seis rótulos obrigatórios — incluindo











