opção
Lar
Notícias
JPEG AI: embaçar a linha entre imagens reais e sintéticas

JPEG AI: embaçar a linha entre imagens reais e sintéticas

20 de Abril de 2025
147

Em fevereiro deste ano, o padrão internacional JPEG AI chegou ao mercado após anos de desenvolvimento. Este novo padrão utiliza aprendizado de máquina para reduzir o tamanho dos arquivos de imagem, mantendo a qualidade perceptual intacta, facilitando o armazenamento e o envio de imagens. Mas aqui está o problema: apesar de seu potencial, o JPEG AI não gerou muito impacto nas manchetes. Por quê? Bem, acontece que os documentos principais que anunciam esse avanço não estavam disponíveis gratuitamente — nem mesmo em plataformas como o Arxiv, que normalmente hospedam tais pesquisas. Ironicamente, o Arxiv publicou vários estudos sobre o JPEG AI, explorando seus artefatos de compressão únicos e implicações para a ciência forense.

Do fluxo oficial de publicações do JPEG AI, uma comparação entre a Razão Sinal-Ruído de Pico (PSNR) e a abordagem aprimorada por aprendizado de máquina do JPEG AI. Fonte: https://jpeg.org/jpegai/documentation.html*Do fluxo oficial de publicações do JPEG AI, uma comparação entre a Razão Sinal-Ruído de Pico (PSNR) e a abordagem aprimorada por aprendizado de máquina do JPEG AI.* Fonte: https://jpeg.org/jpegai/documentation.html

Um estudo, por exemplo, destacou que o JPEG AI tende a desfocar textos, uma preocupação significativa se essas imagens forem usadas em contextos legais onde a clareza é importante. O motivo desse problema? O método de compressão do JPEG AI imita as peculiaridades visuais de geradores de imagens sintéticas, dificultando que ferramentas forenses existentes distingam o real do falso.

Um estudo comparou artefatos de compressão, incluindo os de um rascunho inicial do JPEG AI, descobrindo que o novo método tinha uma tendência a desfocar textos – não é uma questão menor em casos onde o codec pode contribuir para uma cadeia de evidências. Fonte: https://arxiv.org/pdf/2411.06810*Um estudo comparou artefatos de compressão, incluindo os de um rascunho inicial do JPEG AI, descobrindo que o novo método tinha uma tendência a desfocar textos – não é uma questão menor em casos onde o codec pode contribuir para uma cadeia de evidências.* Fonte: https://arxiv.org/pdf/2411.06810

A confusão decorre do JPEG AI usar uma arquitetura de modelo semelhante aos sistemas generativos que as ferramentas forenses são projetadas para detectar. Essa semelhança significa que ambos podem deixar pistas visuais semelhantes, complicando a análise forense.

Após a compressão do JPEG AI, algoritmos de ponta não conseguem mais separar de forma confiável o conteúdo autêntico de regiões manipuladas em mapas de localização, de acordo com um artigo recente (março de 2025). Os exemplos de origem vistos à esquerda são imagens manipuladas/falsas, nas quais as regiões adulteradas são claramente delineadas sob técnicas forenses padrão (imagem central). No entanto, a compressão do JPEG AI confere às imagens falsas uma camada de credibilidade (imagem à extrema direita). Fonte: https://arxiv.org/pdf/2412.03261*Após a compressão do JPEG AI, algoritmos de ponta não conseguem mais separar de forma confiável o conteúdo autêntico de regiões manipuladas em mapas de localização, de acordo com um artigo recente (março de 2025). Os exemplos de origem vistos à esquerda são imagens manipuladas/falsas, nas quais as regiões adulteradas são claramente delineadas sob técnicas forenses padrão (imagem central). No entanto, a compressão do JPEG AI confere às imagens falsas uma camada de credibilidade (imagem à extrema direita).* Fonte: https://arxiv.org/pdf/2412.03261

Ambos os modelos usam uma técnica chamada quantização, que é crucial aqui. A quantização converte dados contínuos em pontos discretos, um processo essencial tanto para reduzir o tamanho do arquivo quanto para tornar os modelos de aprendizado de máquina mais eficientes. No JPEG AI, ela ajuda a reduzir os dados necessários para armazenar ou transmitir imagens, simplificando a representação numérica dentro da imagem. No entanto, isso também introduz padrões que se assemelham aos de modelos generativos, enganando as ferramentas forenses.

O novo artigo ilustra a semelhança entre as metodologias de compressão de imagem impulsionada por IA e imagens geradas por IA. Fonte: https://arxiv.org/pdf/2504.03191*O novo artigo ilustra a semelhança entre as metodologias de compressão de imagem impulsionada por IA e imagens geradas por IA.* Fonte: https://arxiv.org/pdf/2504.03191

Quantização

A quantização neste contexto é sobre converter os valores contínuos na representação latente de uma imagem em etapas fixas e discretas. Isso torna a codificação mais eficiente, mas também introduz regularidades estruturais que podem imitar os artefatos de modelos generativos, sutis, mas suficientemente disruptivas para desafiar as ferramentas forenses.

Em resposta, pesquisadores em um artigo intitulado **Três Pistas Forenses para Imagens JPEG AI** propuseram métodos interpretáveis e não neurais para detectar a compressão do JPEG AI, identificar recompressão e distinguir imagens reais de imagens geradas por IA.

Método

Correlações de Cor

O artigo apresenta três pistas forenses adaptadas para o JPEG AI: correlações de canais de cor, distorções na qualidade da imagem em múltiplas compressões e padrões de quantização no espaço latente. O pré-processamento do JPEG AI introduz dependências estatísticas entre os canais de cor, criando uma assinatura única. Por exemplo, ele converte imagens RGB para o espaço de cor YUV e usa subamostragem de croma 4:2:0, que reduz os canais de crominância antes da compressão. Isso leva a correlações sutis entre os resíduos de alta frequência dos canais vermelho, verde e azul, diferentes daqueles em imagens não comprimidas ou produzidas por JPEG tradicional ou geradores de imagens sintéticas.

Uma comparação de como a compressão do JPEG AI altera as correlações de cor nas imagens, usando o canal vermelho como exemplo. O painel (a) compara imagens não comprimidas com as comprimidas pelo JPEG AI, mostrando que a compressão aumenta significativamente a correlação entre canais. O painel (b) isola o efeito do pré-processamento do JPEG AI – apenas a conversão de cor e subamostragem – demonstrando que mesmo essa etapa sozinha aumenta as correlações de forma notável. O painel (c) mostra que a compressão JPEG tradicional também aumenta as correlações ligeiramente, mas não no mesmo grau. O painel (d) examina imagens sintéticas, com Midjourney-V5 e Firefly exibindo aumentos moderados de correlação, enquanto outras permanecem mais próximas dos níveis não comprimidos.*Uma comparação de como a compressão do JPEG AI altera as correlações de cor nas imagens.*

A imagem acima do artigo mostra como a compressão do JPEG AI impacta as correlações de cor, focando particularmente no canal vermelho. Ela demonstra que a compressão aumenta significativamente as correlações entre canais, e mesmo apenas as etapas de pré-processamento sozinhas aumentam essas correlações de forma notável.

Taxa-Distorção

A pista de taxa-distorção rastreia como a qualidade da imagem, medida pela Razão Sinal-Ruído de Pico (PSNR), declina previsivelmente ao longo de múltiplas passagens de compressão com o JPEG AI. A pesquisa sugere que cada rodada de compressão causa perdas de qualidade progressivamente menores, mas mensuráveis, que podem servir como um indicador forense de recompressão. Diferentemente do JPEG tradicional, onde blocos de imagem específicos eram monitorados, a arquitetura neural do JPEG AI exige o rastreamento de mudanças na taxa de bits e PSNR ao longo das compressões.

Uma ilustração de como a compressão repetida afeta a qualidade da imagem em diferentes codecs mostra que o JPEG AI e o codec neural desenvolvido em https://arxiv.org/pdf/1802.01436 exibem um declínio constante no PSNR com cada compressão adicional – mesmo em taxas de bits mais baixas. Em contraste, o JPEG tradicional mantém uma qualidade relativamente estável em múltiplas compressões, a menos que a taxa de bits seja alta. Esse padrão serve como exemplo de como a recompressão deixa um traço mensurável em codecs baseados em IA, oferecendo um sinal forense potencial.*Uma ilustração de como a compressão repetida afeta a qualidade da imagem em diferentes codecs, apresentando resultados do JPEG AI e de um codec neural desenvolvido em https://arxiv.org/pdf/1802.01436; ambos exibem um declínio constante no PSNR com cada compressão adicional, mesmo em taxas de bits mais baixas. Em contraste, a compressão JPEG tradicional mantém uma qualidade relativamente estável em múltiplas compressões, a menos que a taxa de bits seja alta.*

As curvas de taxa-distorção traçadas mostram que o JPEG AI e outro codec neural exibem um declínio consistente no PSNR em todas as taxas de bits, enquanto o JPEG tradicional só apresenta degradação notável em taxas de bits mais altas. Esse comportamento fornece um sinal claro para detectar recompressão em imagens JPEG AI.

Quantização

Um dos maiores desafios forenses com o JPEG AI é sua semelhança visual com imagens criadas por modelos de difusão, ambos usando arquiteturas de codificador-decodificador que processam imagens em espaços latentes comprimidos. No entanto, o JPEG AI aplica quantização para arredondar valores latentes para uma compressão eficiente, uma etapa não usada tipicamente por modelos generativos. O novo artigo aproveita essa diferença para criar uma pista forense que testa a presença de quantização analisando como a representação latente se alinha com valores arredondados. Esses padrões, embora invisíveis a olho nu, ajudam a diferenciar imagens reais comprimidas de imagens sintéticas.

Um exemplo de espectros médios de Fourier revela que tanto as imagens comprimidas pelo JPEG AI quanto aquelas geradas por modelos de difusão como Midjourney-V5 e Stable Diffusion XL exibem padrões regulares em forma de grade no domínio da frequência – artefatos comumente ligados ao upsampling. Em contraste, imagens reais carecem desses padrões. Essa sobreposição na estrutura espectral ajuda a explicar por que as ferramentas forenses frequentemente confundem imagens reais comprimidas com imagens sintéticas.*Um exemplo de espectros médios de Fourier revela que tanto as imagens comprimidas pelo JPEG AI quanto aquelas geradas por modelos de difusão como Midjourney-V5 e Stable Diffusion XL exibem padrões regulares em forma de grade no domínio da frequência – artefatos comumente ligados ao upsampling. Em contraste, imagens reais carecem desses padrões. Essa sobreposição na estrutura espectral ajuda a explicar por que as ferramentas forenses frequentemente confundem imagens reais comprimidas com imagens sintéticas.*

Essa pista permanece eficaz em vários modelos generativos e compressões fortes, fornecendo um método prático para distinguir entre imagens reais comprimidas e sintéticas.

Dados e Testes

Compressão

Para testar a pista de correlação de cor para detectar a compressão do JPEG AI, os pesquisadores usaram imagens não comprimidas de alta qualidade do conjunto de dados RAISE, comprimindo-as em várias taxas de bits usando a implementação de referência do JPEG AI. Eles treinaram uma floresta aleatória simples nas correlações de canais de cor e a compararam com um ResNet50 treinado em pixels de imagem. Os resultados mostraram que, enquanto o ResNet50 teve bom desempenho em condições de teste correspondentes, ele teve dificuldades para generalizar em diferentes níveis de compressão. A abordagem baseada em correlação, no entanto, provou ser mais consistente, especialmente em taxas de bits mais baixas, onde o impacto do pré-processamento do JPEG AI é mais forte.

Precisão de detecção da compressão do JPEG AI usando recursos de correlação de cor, comparada em várias taxas de bits. O método é mais eficaz em taxas de bits mais baixas, onde os artefatos de compressão são mais fortes, e mostra uma melhor generalização para níveis de compressão não vistos do que o modelo ResNet50 de base.*Precisão de detecção da compressão do JPEG AI usando recursos de correlação de cor, comparada em várias taxas de bits. O método é mais eficaz em taxas de bits mais baixas, onde os artefatos de compressão são mais fortes, e mostra uma melhor generalização para níveis de compressão não vistos do que o modelo ResNet50 de base.*

Recompressão

Para detectar a recompressão do JPEG AI, os pesquisadores usaram a pista de taxa-distorção em imagens comprimidas em diferentes taxas de bits, algumas uma vez e outras duas vezes. Eles extraíram um vetor de características de 17 dimensões para rastrear mudanças na taxa de bits e PSNR ao longo das compressões. Uma floresta aleatória treinada nesses recursos superou consistentemente um ResNet50 treinado em fragmentos de imagem, particularmente quando a compressão inicial era forte. O método permaneceu estável em vários cenários e até generalizou para outro codec baseado em IA.

Resultados para a precisão de classificação de uma floresta aleatória treinada em recursos de taxa-distorção para detectar se uma imagem JPEG AI foi recomprimida. O método tem melhor desempenho quando a compressão inicial é forte (ou seja, em taxas de bits mais baixas), e então supera consistentemente um ResNet50 baseado em pixels – especialmente em casos onde a segunda compressão é mais suave do que a primeira.*Resultados para a precisão de classificação de uma floresta aleatória treinada em recursos de taxa-distorção para detectar se uma imagem JPEG AI foi recomprimida. O método tem melhor desempenho quando a compressão inicial é forte (ou seja, em taxas de bits mais baixas), e então supera consistentemente um ResNet50 baseado em pixels – especialmente em casos onde a segunda compressão é mais suave do que a primeira.*

JPEG AI e Imagens Sintéticas

Por fim, para distinguir entre imagens comprimidas pelo JPEG AI e imagens totalmente sintéticas, os pesquisadores usaram o conjunto de dados Synthbuster, misturando fotos reais do banco de dados RAISE com imagens geradas por vários modelos. Eles comprimiram as imagens reais usando o JPEG AI em diferentes taxas de bits e usaram um classificador de floresta aleatória em recursos de quantização extraídos de uma região fixa. A abordagem baseada em quantização superou o ResNet50 de base, particularmente em taxas de bits mais baixas, onde os artefatos de compressão eram mais pronunciados.

Exemplos de imagens sintéticas no Synthbuster, geradas usando prompts de texto inspirados em fotografias naturais do conjunto de dados RAISE-1k. As imagens foram criadas com vários modelos de difusão, com prompts projetados para produzir conteúdo e texturas fotorrealistas, em vez de renderizações estilizadas ou artísticas, refletindo o foco do conjunto de dados em testar métodos para distinguir imagens reais de geradas.*Exemplos de imagens sintéticas no Synthbuster, geradas usando prompts de texto inspirados em fotografias naturais do conjunto de dados RAISE-1k. As imagens foram criadas com vários modelos de difusão, com prompts projetados para produzir conteúdo e texturas fotorrealistas, em vez de renderizações estilizadas ou artísticas.* Fonte: https://ieeexplore.ieee.org/document/10334046

Precisão de classificação de uma floresta aleatória usando recursos de quantização para separar imagens comprimidas pelo JPEG AI de imagens sintéticas.*Precisão de classificação de uma floresta aleatória usando recursos de quantização para separar imagens comprimidas pelo JPEG AI de imagens sintéticas.*

Os autores observaram que os recursos de quantização generalizaram bem em diferentes forças de compressão e tipos de geradores, com o vetor inteiro completo proporcionando maior precisão na detecção de imagens comprimidas pelo JPEG AI. Uma visualização UMAP mostrou uma clara separação entre imagens JPEG AI e sintéticas, com taxas de bits mais baixas aumentando a distância entre as classes.

Visualização bidimensional UMAP de imagens comprimidas pelo JPEG AI e sintéticas, baseada em recursos de quantização. O gráfico à esquerda mostra que taxas de bits mais baixas do JPEG AI criam maior separação de imagens sintéticas; o gráfico à direita, como imagens de diferentes geradores se agrupam distintamente no espaço de características.*Visualização bidimensional UMAP de imagens comprimidas pelo JPEG AI e sintéticas, baseada em recursos de quantização. O gráfico à esquerda mostra que taxas de bits mais baixas do JPEG AI criam maior separação de imagens sintéticas; o gráfico à direita, como imagens de diferentes geradores se agrupam distintamente no espaço de características.*

Por fim, os pesquisadores avaliaram a robustez desses recursos sob pós-processamento típico, como recompressão JPEG e redimensionamento de imagem. Embora o desempenho tenha diminuído com processamento mais pesado, a queda foi gradual, indicando alguma resiliência na abordagem.

Conclusão

É incerto se o JPEG AI será amplamente adotado. A infraestrutura existente apresenta desafios para qualquer novo codec, e até codecs estabelecidos como o AV1 enfrentam dificuldades para substituir métodos mais antigos. Se os artefatos de quantização do JPEG AI continuarem a confundir ferramentas forenses, sua adoção pode ser prejudicada. No entanto, se futuros geradores de IA deixarem traços forenses diferentes, os problemas atuais do JPEG AI podem não ser tão significativos. Ainda assim, se o JPEG AI borrar a linha entre imagens reais e geradas, seu uso generalizado pode ser questionado.

Primeiro publicado na terça-feira, 8 de abril de 2025

Artigo relacionado
Criando Livros de Colorir Alimentados por IA: Um Guia Completo Criando Livros de Colorir Alimentados por IA: Um Guia Completo Projetar livros de colorir é uma busca recompensadora, combinando expressão artística com experiências calmantes para os usuários. No entanto, o processo pode ser trabalhoso. Felizmente, ferramentas d
Qodo Faz Parceria com Google Cloud para Oferecer Ferramentas Gratuitas de Revisão de Código por IA para Desenvolvedores Qodo Faz Parceria com Google Cloud para Oferecer Ferramentas Gratuitas de Revisão de Código por IA para Desenvolvedores Qodo, uma startup de codificação por IA baseada em Israel focada em qualidade de código, lançou uma parceria com Google Cloud para aprimorar a integridade de software gerado por IA.À medida que as emp
IA da DeepMind Ganha Ouro na Olimpíada de Matemática de 2025 IA da DeepMind Ganha Ouro na Olimpíada de Matemática de 2025 A IA da DeepMind alcançou um salto impressionante no raciocínio matemático, conquistando uma medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025, apenas um ano após ganhar prata em
Comentários (22)
0/200
ArthurSanchez
ArthurSanchez 4 de Agosto de 2025 à52 07:48:52 WEST

This JPEG AI thing is wild! Shrinking files while keeping images crisp? I'm all for it, but wonder if it'll make fake images too convincing. 😅

JohnYoung
JohnYoung 1 de Agosto de 2025 à18 03:48:18 WEST

This JPEG AI thing is wild! Shrinking file sizes while keeping images crisp? That's like magic for my phone storage. Can't wait to see how it changes photo sharing! 📸

LawrenceLopez
LawrenceLopez 23 de Abril de 2025 à33 09:10:33 WEST

JPEG AI é incrível! Comprime imagens muito bem e ainda assim elas parecem ótimas. Economizei muito espaço no meu celular. Mas às vezes, as imagens parecem um pouco artificiais, o que é estranho. Ainda assim, é essencial para quem lida com muitas fotos! 😊

HaroldLopez
HaroldLopez 23 de Abril de 2025 à54 02:34:54 WEST

JPEG AI는 꽤 괜찮지만, 실제와 합성 이미지의 경계를 흐리게 하는 것이 이상해요. 온라인에서 보는 모든 것을 의심하게 만드네요! 🤔 그래도 공간을 절약하는 데는 유용해요.

JerryGonzález
JerryGonzález 22 de Abril de 2025 à58 23:00:58 WEST

JPEG AIは便利ですが、リアルと合成の画像の境界が曖昧になるのは不思議です。オンラインで見るもの全てに疑問を持ってしまいます!🤔 それでも、スペースを節約するのに役立ちますね。

WillMitchell
WillMitchell 22 de Abril de 2025 à56 13:18:56 WEST

JPEG AI es increíble! Comprime las imágenes muy bien y aún así se ven geniales. He ahorrado mucho espacio en mi teléfono. Pero a veces, las imágenes parecen un poco artificiales, lo que es raro. Aún así, es imprescindible para quien maneja muchas fotos! 😎

De volta ao topo
OR