JPEG AI: borrando la línea entre imágenes reales y sintéticas

Hogar

Noticias

20 de abril de 2025

CharlesMartinez

154

En febrero de este año, el estándar internacional JPEG AI irrumpió en la escena tras años de desarrollo. Este nuevo estándar utiliza el aprendizaje automático para reducir el tamaño de los archivos de imagen mientras mantiene intacta la calidad perceptual, facilitando el almacenamiento y envío de imágenes. Pero aquí está el detalle: a pesar de su potencial, JPEG AI no generó mucho revuelo en los titulares. ¿Por qué? Bueno, resulta que los documentos principales que anunciaban este avance no estaban disponibles gratuitamente, ni siquiera en plataformas como Arxiv, que suelen albergar este tipo de investigaciones. Irónicamente, Arxiv publicó varios estudios sobre JPEG AI, explorando sus artefactos de compresión únicos y sus implicaciones para la ciencia forense.

*Desde el flujo de publicación oficial de JPEG AI, una comparación entre la Relación Señal-Ruido Pico (PSNR) y el enfoque aumentado por aprendizaje automático de JPEG AI.* Fuente: https://jpeg.org/jpegai/documentation.html

Un estudio, por ejemplo, destacó que JPEG AI tiende a difuminar el texto, una preocupación significativa si estas imágenes se utilizan en contextos legales donde la claridad es importante. ¿La razón detrás de este problema? El método de compresión de JPEG AI imita las peculiaridades visuales de los generadores de imágenes sintéticas, lo que dificulta que las herramientas forenses existentes distingan entre lo real y lo falso.

*Un estudio comparó artefactos de compresión, incluidos los de un borrador anterior de JPEG AI, encontrando que el nuevo método tenía una tendencia a difuminar el texto, no es un asunto menor en casos donde el códec podría contribuir a una cadena de evidencia.* Fuente: https://arxiv.org/pdf/2411.06810

La confusión proviene de que JPEG AI utiliza una arquitectura de modelo similar a los sistemas generativos que las herramientas forenses están diseñadas para detectar. Esta similitud significa que ambos podrían dejar pistas visuales similares, complicando el análisis forense.

*Tras la compresión de JPEG AI, los algoritmos de última generación ya no pueden separar de manera confiable el contenido auténtico de las regiones manipuladas en mapas de localización, según un artículo reciente (marzo de 2025). Los ejemplos fuente vistos a la izquierda son imágenes manipuladas/falsas, donde las regiones alteradas se delinean claramente bajo técnicas forenses estándar (imagen central). Sin embargo, la compresión de JPEG AI otorga a las imágenes falsas una capa de credibilidad (imagen a la derecha).* Fuente: https://arxiv.org/pdf/2412.03261

Ambos modelos utilizan una técnica llamada cuantización, que es crucial aquí. La cuantización convierte datos continuos en puntos discretos, un proceso esencial tanto para reducir el tamaño del archivo como para hacer que los modelos de aprendizaje automático sean más eficientes. En JPEG AI, ayuda a reducir los datos necesarios para almacenar o transmitir imágenes al simplificar la representación numérica dentro de la imagen. Sin embargo, esto también introduce patrones que se asemejan a los de los modelos generativos, engañando a las herramientas forenses.

*El nuevo artículo ilustra la similitud entre las metodologías de compresión de imágenes impulsada por AI y las imágenes generadas por AI.* Fuente: https://arxiv.org/pdf/2504.03191

Cuantización

La cuantización en este contexto se trata de convertir los valores continuos en la representación latente de una imagen en pasos fijos y discretos. Esto hace que la codificación sea más eficiente, pero también introduce regularidades estructurales que pueden imitar los artefactos de los modelos generativos, sutiles pero lo suficientemente disruptivos como para desafiar a las herramientas forenses.

En respuesta, investigadores en un artículo titulado **Tres Pistas Forenses para Imágenes JPEG AI** han propuesto métodos no neuronales e interpretables para detectar la compresión de JPEG AI, identificar la recompresión y distinguir imágenes reales de las generadas por AI.

Método

Correlaciones de Color

El artículo introduce tres pistas forenses adaptadas para JPEG AI: correlaciones de canales de color, distorsiones en la calidad de la imagen a través de múltiples compresiones y patrones de cuantización en el espacio latente. El preprocesamiento de JPEG AI introduce dependencias estadísticas entre los canales de color, creando una firma única. Por ejemplo, convierte imágenes RGB a espacio de color YUV y utiliza submuestreo de croma 4:2:0, que reduce los canales de crominancia antes de la compresión. Esto lleva a correlaciones sutiles entre los residuos de alta frecuencia de los canales rojo, verde y azul, diferentes de los de imágenes sin comprimir o las producidas por JPEG tradicional o generadores de imágenes sintéticas.

*Una comparación de cómo la compresión de JPEG AI altera las correlaciones de color en las imágenes.*

La imagen anterior del artículo muestra cómo la compresión de JPEG AI afecta las correlaciones de color, particularmente enfocándose en el canal rojo. Muestra que la compresión aumenta significativamente las correlaciones entre canales, y que incluso solo los pasos de preprocesamiento aumentan notablemente estas correlaciones.

Tasa-Distorsión

La pista de tasa-distorsión rastrea cómo la calidad de la imagen, medida por la Relación Señal-Ruido Pico (PSNR), disminuye de manera predecible en múltiples pases de compresión con JPEG AI. La investigación sugiere que cada ronda de compresión causa pérdidas de calidad cada vez menores pero medibles, lo que puede servir como un indicador forense de recompresión. A diferencia del JPEG tradicional, donde se monitoreaban bloques de imagen específicos, la arquitectura neuronal de JPEG AI requiere rastrear cambios en la tasa de bits y PSNR a través de las compresiones.

*Una ilustración de cómo la compresión repetida afecta la calidad de la imagen en diferentes códecs, presentando resultados de JPEG AI y un códec neuronal desarrollado en https://arxiv.org/pdf/1802.01436; ambos exhiben una disminución constante en PSNR con cada compresión adicional, incluso a tasas de bits más bajas. En contraste, la compresión JPEG tradicional mantiene una calidad relativamente estable a través de múltiples compresiones, a menos que la tasa de bits sea alta.*

Las curvas de tasa-distorsión graficadas muestran que JPEG AI y otro códec neuronal presentan una disminución constante en PSNR en todas las tasas de bits, mientras que el JPEG tradicional solo se degrada notablemente a tasas de bits más altas. Este comportamiento proporciona una señal clara para detectar la recompresión en imágenes JPEG AI.

Cuantización

Uno de los mayores desafíos forenses con JPEG AI es su similitud visual con imágenes creadas por modelos de difusión, ambos utilizando arquitecturas codificador-decodificador que procesan imágenes en espacios latentes comprimidos. Sin embargo, JPEG AI aplica cuantización para redondear valores latentes para una compresión eficiente, un paso que no suelen usar los modelos generativos. El nuevo artículo aprovecha esta diferencia para diseñar una pista forense que prueba la presencia de cuantización analizando cómo la representación latente se alinea con valores redondeados. Estos patrones, aunque invisibles al ojo, ayudan a diferenciar imágenes reales comprimidas de las sintéticas.

*Un ejemplo de espectros de Fourier promedio revela que tanto las imágenes comprimidas por JPEG AI como las generadas por modelos de difusión como Midjourney-V5 y Stable Diffusion XL exhiben patrones de rejilla regulares en el dominio de la frecuencia, artefactos comúnmente vinculados al sobremuestreo. En contraste, las imágenes reales carecen de estos patrones. Esta superposición en la estructura espectral ayuda a explicar por qué las herramientas forenses a menudo confunden imágenes reales comprimidas con sintéticas.*

Esta pista sigue siendo efectiva en diversos modelos generativos y compresiones fuertes, proporcionando un método práctico para distinguir entre imágenes reales comprimidas y sintéticas.

Datos y Pruebas

Compresión

Para probar la pista de correlación de color para detectar la compresión de JPEG AI, los investigadores utilizaron imágenes sin comprimir de alta calidad del conjunto de datos RAISE, comprimiéndolas a varias tasas de bits usando la implementación de referencia de JPEG AI. Entrenaron un bosque aleatorio simple en las correlaciones de canales de color y lo compararon con un ResNet50 entrenado en píxeles de imagen. Los resultados mostraron que, aunque ResNet50 tuvo un buen desempeño en condiciones de prueba coincidentes, tuvo dificultades para generalizar a diferentes niveles de compresión. El enfoque basado en correlaciones, sin embargo, demostró ser más consistente, especialmente a tasas de bits más bajas donde el impacto del preprocesamiento de JPEG AI es más fuerte.

*Precisión de detección de la compresión de JPEG AI usando características de correlación de color, comparadas en múltiples tasas de bits. El método es más efectivo a tasas de bits más bajas, donde los artefactos de compresión son más fuertes, y muestra una mejor generalización a niveles de compresión no vistos que el modelo base ResNet50.*

Recompresión

Para detectar la recompresión de JPEG AI, los investigadores usaron la pista de tasa-distorsión en imágenes comprimidas a diferentes tasas de bits, algunas una vez y otras dos veces. Extrajeron un vector de características de 17 dimensiones para rastrear cambios en la tasa de bits y PSNR a través de las compresiones. Un bosque aleatorio entrenado en estas características superó consistentemente a un ResNet50 entrenado en parches de imagen, particularmente cuando la compresión inicial era fuerte. El método se mantuvo estable en varios escenarios e incluso se generalizó a otro códec basado en AI.

*Resultados de la precisión de clasificación de un bosque aleatorio entrenado en características de tasa-distorción para detectar si una imagen JPEG AI ha sido recomprimida. El método funciona mejor cuando la compresión inicial es fuerte (es decir, a tasas de bits más bajas), y luego supera consistentemente a un ResNet50 basado en píxeles, especialmente en casos donde la segunda compresión es más suave que la primera.*

JPEG AI y Imágenes Sintéticas

Finalmente, para distinguir entre imágenes comprimidas por JPEG AI y completamente sintéticas, los investigadores usaron el conjunto de datos Synthbuster, mezclando fotos reales de la base de datos RAISE con imágenes generadas por varios modelos. Comprimieron las imágenes reales usando JPEG AI a diferentes tasas de bits y utilizaron un clasificador de bosque aleatorio en características de cuantización extraídas de una región fija. El enfoque basado en cuantización superó al modelo base ResNet50, particularmente a tasas de bits más bajas donde los artefactos de compresión eran más pronunciados.

*Ejemplos de imágenes sintéticas en Synthbuster, generadas usando prompts de texto inspirados en fotografías naturales del conjunto de datos RAISE-1k. Las imágenes fueron creadas con varios modelos de difusión, con prompts diseñados para producir contenido y texturas fotorrealistas en lugar de representaciones estilizadas o artísticas.* Fuente: https://ieeexplore.ieee.org/document/10334046

*Precisión de clasificación de un bosque aleatorio usando características de cuantización para separar imágenes comprimidas por JPEG AI de imágenes sintéticas.*

Los autores señalaron que las características de cuantización se generalizaron bien a través de diferentes intensidades de compresión y tipos de generadores, con el vector entero completo proporcionando mayor precisión en la detección de imágenes comprimidas por JPEG AI. Una visualización UMAP mostró una clara separación entre imágenes JPEG AI y sintéticas, con tasas de bits más bajas aumentando la distancia entre clases.

*Visualización UMAP bidimensional de imágenes comprimidas por JPEG AI y sintéticas, basada en características de cuantización. La gráfica izquierda muestra que tasas de bits más bajas de JPEG AI crean una mayor separación de las imágenes sintéticas; la gráfica derecha, cómo las imágenes de diferentes generadores se agrupan de manera distinta dentro del espacio de características.*

Finalmente, los investigadores evaluaron la robustez de estas características bajo un procesamiento posterior típico como la recompresión JPEG y el redimensionamiento de imágenes. Aunque el rendimiento disminuyó con un procesamiento más intenso, la caída fue gradual, indicando cierta resiliencia en el enfoque.

Conclusión

No está claro si JPEG AI será ampliamente adoptado. La infraestructura existente plantea desafíos a cualquier códec nuevo, e incluso códecs establecidos como AV1 luchan por reemplazar métodos más antiguos. Si los artefactos de cuantización de JPEG AI continúan confundiendo a las herramientas forenses, su adopción podría verse obstaculizada. Sin embargo, si los futuros generadores de AI dejan huellas forenses diferentes, los problemas actuales de JPEG AI podrían no ser tan significativos. No obstante, si JPEG AI difumina la línea entre imágenes reales y generadas, su uso generalizado podría ser cuestionado.

Publicado por primera vez el martes, 8 de abril de 2025

Artículo relacionado

Topaz DeNoise AI: Mejor herramienta de reducción de ruido en 2025 - Guía completa En el competitivo mundo de la fotografía digital, la claridad de imagen sigue siendo primordial. Fotógrafos de todos los niveles se enfrentan al ruido digital que compromete tomas que de otro modo ser

Maestro Esmeralda Kaizo Nuzlocke: Guía definitiva de supervivencia y estrategia Kaizo Esmeralda se erige como uno de los hacks de ROMs de Pokémon más formidables jamás concebidos. Aunque intentar una ejecución Nuzlocke aumenta exponencialmente el desafío, la victoria sigue siendo

Cartas de presentación con IA: Guía de expertos para la presentación de trabajos a revistas En el competitivo entorno actual de las publicaciones académicas, la elaboración de una carta de presentación eficaz puede marcar la diferencia decisiva en la aceptación de su manuscrito. Descubra cóm

comentario (22)

0/200

Entregar

ArthurSanchez

4 de agosto de 2025 08:48:52 GMT+02:00

This JPEG AI thing is wild! Shrinking files while keeping images crisp? I'm all for it, but wonder if it'll make fake images too convincing. 😅

JohnYoung

1 de agosto de 2025 04:48:18 GMT+02:00

This JPEG AI thing is wild! Shrinking file sizes while keeping images crisp? That's like magic for my phone storage. Can't wait to see how it changes photo sharing! 📸

LawrenceLopez

23 de abril de 2025 10:10:33 GMT+02:00

JPEG AI é incrível! Comprime imagens muito bem e ainda assim elas parecem ótimas. Economizei muito espaço no meu celular. Mas às vezes, as imagens parecem um pouco artificiais, o que é estranho. Ainda assim, é essencial para quem lida com muitas fotos! 😊

HaroldLopez

23 de abril de 2025 03:34:54 GMT+02:00

JPEG AI는 꽤 괜찮지만, 실제와 합성 이미지의 경계를 흐리게 하는 것이 이상해요. 온라인에서 보는 모든 것을 의심하게 만드네요! 🤔 그래도 공간을 절약하는 데는 유용해요.

JerryGonzález

23 de abril de 2025 00:00:58 GMT+02:00

JPEG AIは便利ですが、リアルと合成の画像の境界が曖昧になるのは不思議です。オンラインで見るもの全てに疑問を持ってしまいます！🤔 それでも、スペースを節約するのに役立ちますね。

WillMitchell

22 de abril de 2025 14:18:56 GMT+02:00

JPEG AI es increíble! Comprime las imágenes muy bien y aún así se ven geniales. He ahorrado mucho espacio en mi teléfono. Pero a veces, las imágenes parecen un poco artificiales, lo que es raro. Aún así, es imprescindible para quien maneja muchas fotos! 😎

Noticias principales

Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera AI Builder y Power Automate Revolucionan la Sumarización de Documentos Operai mejora el asistente de voz de IA para mejores chats Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Google utiliza IA para suspender más de 39 millones de cuentas publicitarias por sospecha de fraude

Más

Presentado