JPEG AI: Die Grenze zwischen realen und synthetischen Bildern verwischen
Zurück im Februar dieses Jahres wurde der internationale Standard JPEG AI nach Jahren der Entwicklung eingeführt. Dieser neue Standard nutzt maschinelles Lernen, um die Dateigröße von Bildern zu reduzieren, während die wahrnehmbare Qualität erhalten bleibt, was die Speicherung und Übertragung von Bildern erleichtert. Aber hier ist der Haken: Trotz seines Potenzials machte JPEG AI nicht viel Schlagzeilen. Warum? Nun, es stellte sich heraus, dass die zentralen Dokumente, die diesen Durchbruch ankündigten, nicht frei verfügbar waren – selbst auf Plattformen wie Arxiv, die normalerweise solche Forschungen hosten. Ironischerweise veröffentlichte Arxiv mehrere Studien zu JPEG AI, die dessen einzigartige Kompressionsartefakte und Auswirkungen auf die Forensik untersuchten.
*Aus dem offiziellen Veröffentlichungsstrom für JPEG AI, ein Vergleich zwischen dem Spitzen-Signal-Rausch-Verhältnis (PSNR) und dem ML-unterstützten Ansatz von JPEG AI.* Quelle: https://jpeg.org/jpegai/documentation.html
Eine Studie hob beispielsweise hervor, dass JPEG AI dazu neigt, Text unscharf zu machen, was ein erhebliches Problem darstellt, wenn diese Bilder in rechtlichen Kontexten verwendet werden, wo Klarheit wichtig ist. Der Grund für dieses Problem? Die Kompressionsmethode von JPEG AI imitiert die visuellen Eigenheiten von synthetischen Bildgeneratoren, was es bestehenden forensischen Werkzeugen erschwert, Echtes von Falschem zu unterscheiden.
*Eine Studie verglich Kompressionsartefakte, einschließlich derer eines früheren Entwurfs von JPEG AI, und stellte fest, dass die neue Methode dazu neigt, Text unscharf zu machen – kein geringes Problem in Fällen, in denen der Codec zu einer Beweiskette beitragen könnte.* Quelle: https://arxiv.org/pdf/2411.06810
Die Verwirrung rührt daher, dass JPEG AI eine Modellarchitektur verwendet, die den generativen Systemen ähnelt, die forensische Werkzeuge erkennen sollen. Diese Ähnlichkeit bedeutet, dass beide ähnliche visuelle Hinweise hinterlassen könnten, was die forensische Analyse erschwert.
*Nach der JPEG AI-Kompression können hochmoderne Algorithmen authentische Inhalte nicht mehr zuverlässig von manipulierten Bereichen in Lokalisierungskarten trennen, laut einem aktuellen Paper (März 2025). Die Quellbeispiele links sind manipulierte/falsche Bilder, bei denen die veränderten Bereiche unter standardmäßigen forensischen Techniken klar abgegrenzt sind (mittleres Bild). Die JPEG AI-Kompression verleiht den gefälschten Bildern jedoch eine Schicht Glaubwürdigkeit (Bild ganz rechts).* Quelle: https://arxiv.org/pdf/2412.03261
Beide Modelle verwenden eine Technik namens Quantisierung, die hier entscheidend ist. Die Quantisierung wandelt kontinuierliche Daten in diskrete Punkte um, ein Prozess, der sowohl für die Reduzierung der Dateigröße als auch für die Effizienzsteigerung von maschinellen Lernmodellen unerlässlich ist. Bei JPEG AI hilft sie, die benötigten Daten zur Speicherung oder Übertragung von Bildern zu reduzieren, indem die numerische Darstellung innerhalb des Bildes vereinfacht wird. Dies führt jedoch auch zu Mustern, die denen von generativen Modellen ähneln und forensische Werkzeuge täuschen.
*Das neue Paper zeigt die Ähnlichkeit zwischen den Methoden der KI-gesteuerten Bildkompression und tatsächlichen KI-generierten Bildern.* Quelle: https://arxiv.org/pdf/2504.03191
Quantisierung
Quantisierung in diesem Kontext bedeutet die Umwandlung der kontinuierlichen Werte in der latenten Darstellung eines Bildes in feste, diskrete Schritte. Dies macht die Kodierung effizienter, führt aber auch zu strukturellen Regelmäßigkeiten, die die Artefakte generativer Modelle nachahmen können, subtil, aber störend genug, um forensische Werkzeuge herauszufordern.
Als Reaktion darauf haben Forscher in einem Paper mit dem Titel **Drei forensische Hinweise für JPEG AI-Bilder** nicht-neurale, interpretierbare Methoden vorgeschlagen, um JPEG AI-Kompression zu erkennen, Rekompression zu identifizieren und echte von KI-generierten Bildern zu unterscheiden.
Methode
Farbkorrelationen
Das Paper stellt drei forensische Hinweise vor, die auf JPEG AI zugeschnitten sind: Korrelationen zwischen Farbkanälen, Verzerrungen der Bildqualität bei mehrfachen Kompressionen und Quantisierungsmuster im latenten Raum. Die Vorverarbeitung von JPEG AI führt statistische Abhängigkeiten zwischen den Farbkanälen ein, was eine einzigartige Signatur erzeugt. Beispielsweise wandelt es RGB-Bilder in den YUV-Farbraum um und verwendet 4:2:0-Chroma-Subsampling, das die Chrominanzkanäle vor der Kompression herunterskaliert. Dies führt zu subtilen Korrelationen zwischen den Hochfrequenzresten der roten, grünen und blauen Kanäle, die sich von denen in unkomprimierten Bildern oder solchen, die mit traditionellem JPEG oder synthetischen Bildgeneratoren erzeugt wurden, unterscheiden.
*Ein Vergleich, wie die JPEG AI-Kompression Farbkorrelationen in Bildern verändert.*
Das obige Bild aus dem Paper zeigt, wie die JPEG AI-Kompression Farbkorrelationen beeinflusst, insbesondere mit Fokus auf den roten Kanal. Es zeigt, dass die Kompression die Interkanal-Korrelationen erheblich steigert, und selbst nur die Vorverarbeitungsschritte allein erhöhen diese Korrelationen spürbar.
Rate-Distortion
Der Rate-Distortion-Hinweis verfolgt, wie die Bildqualität, gemessen am Spitzen-Signal-Rausch-Verhältnis (PSNR), bei mehrfachen Kompressionen mit JPEG AI vorhersehbar abnimmt. Die Forschung legt nahe, dass jede Kompressionsrunde fortschreitend kleinere, aber messbare Qualitätsverluste verursacht, die als forensischer Indikator für Rekompression dienen können. Im Gegensatz zu traditionellem JPEG, wo spezifische Bildblöcke überwacht wurden, erfordert die neuronale Architektur von JPEG AI die Verfolgung von Änderungen in Bitrate und PSNR über Kompressionen hinweg.
*Eine Illustration, wie wiederholte Kompression die Bildqualität über verschiedene Codecs hinweg beeinflusst, mit Ergebnissen von JPEG AI und einem neuronalen Codec, entwickelt unter https://arxiv.org/pdf/1802.01436; beide zeigen einen stetigen Rückgang des PSNR bei jeder zusätzlichen Kompression, selbst bei niedrigeren Bitraten. Im Gegensatz dazu hält traditionelle JPEG-Kompression die Qualität bei mehrfachen Kompressionen relativ stabil, es sei denn, die Bitrate ist hoch.*
Die dargestellten Rate-Distortion-Kurven zeigen, dass JPEG AI und ein anderer neuronaler Codec über alle Bitraten hinweg einen konsistenten PSNR-Rückgang aufweisen, während traditionelles JPEG nur bei höheren Bitraten merklich abbaut. Dieses Verhalten liefert ein klares Signal zur Erkennung von Rekompression in JPEG AI-Bildern.
Quantisierung
Eine der größten forensischen Herausforderungen bei JPEG AI ist seine visuelle Ähnlichkeit mit Bildern, die von Diffusionsmodellen erstellt wurden, da beide Encoder-Decoder-Architekturen verwenden, die Bilder in komprimierten latenten Räumen verarbeiten. JPEG AI wendet jedoch Quantisierung an, um latente Werte für eine effiziente Kompression zu runden, ein Schritt, der bei generativen Modellen typischerweise nicht verwendet wird. Das neue Paper nutzt diesen Unterschied, um einen forensischen Hinweis zu entwickeln, der die Anwesenheit von Quantisierung testet, indem analysiert wird, wie die latente Darstellung mit gerundeten Werten übereinstimmt. Diese Muster, obwohl für das Auge unsichtbar, helfen, komprimierte echte Bilder von synthetischen zu unterscheiden.
*Ein Beispiel für durchschnittliche Fourier-Spektren zeigt, dass sowohl JPEG AI-komprimierte Bilder als auch solche, die von Diffusionsmodellen wie Midjourney-V5 und Stable Diffusion XL generiert wurden, regelmäßige gitterartige Muster im Frequenzbereich aufweisen – Artefakte, die üblicherweise mit Upsampling verbunden sind. Im Gegensatz dazu fehlen echten Bildern diese Muster.*
Dieser Hinweis bleibt über verschiedene generative Modelle und starke Kompressionen hinweg effektiv und bietet eine praktische Methode, um zwischen komprimierten echten und synthetischen Bildern zu unterscheiden.
Daten und Tests
Kompression
Um den Farbkorrelationshinweis zur Erkennung von JPEG AI-Kompression zu testen, verwendeten die Forscher hochqualitative unkomprimierte Bilder aus dem RAISE-Datensatz, die sie mit der JPEG AI-Referenzimplementierung bei verschiedenen Bitraten komprimierten. Sie trainierten einen einfachen Random Forest auf den Farbkanal-Korrelationen und verglichen ihn mit einem ResNet50, der auf Bildpixel trainiert wurde. Die Ergebnisse zeigten, dass ResNet50 unter passenden Testbedingungen gut abschnitt, aber Schwierigkeiten hatte, auf verschiedene Kompressionsstufen zu verallgemeinern. Der korrelationsbasierte Ansatz erwies sich jedoch als konsistenter, insbesondere bei niedrigeren Bitraten, wo die Auswirkungen der Vorverarbeitung von JPEG AI stärker sind.
*Erkennungsgenauigkeit der JPEG AI-Kompression mit Farbkorrelationsmerkmalen, verglichen über mehrere Bitraten. Die Methode ist am effektivsten bei niedrigeren Bitraten, wo Kompressionsartefakte stärker sind, und zeigt eine bessere Verallgemeinerung auf ungesehene Kompressionsstufen als das Baseline-ResNet50-Modell.*
Rekompression
Zur Erkennung von JPEG AI-Rekompression verwendeten die Forscher den Rate-Distortion-Hinweis auf Bilder, die bei verschiedenen Bitraten komprimiert wurden, einige einmal und einige zweimal. Sie extrahierten einen 17-dimensionalen Merkmalsvektor, um Änderungen in Bitrate und PSNR über Kompressionen hinweg zu verfolgen. Ein Random Forest, der auf diesen Merkmalen trainiert wurde, übertraf durchweg ein ResNet50, das auf Bildausschnitten trainiert wurde, insbesondere wenn die anfängliche Kompression stark war. Die Methode blieb stabil über verschiedene Szenarien hinweg und verallgemeinerte sogar auf einen anderen KI-basierten Codec.
*Ergebnisse für die Klassifikationsgenauigkeit eines Random Forest, der auf Rate-Distortion-Merkmalen trainiert wurde, um zu erkennen, ob ein JPEG AI-Bild rekomprimiert wurde. Die Methode funktioniert am besten, wenn die anfängliche Kompression stark ist (d.h. bei niedrigeren Bitraten), und übertrifft dann durchweg ein pixelbasiertes ResNet50 – insbesondere in Fällen, in denen die zweite Kompression milder ist als die erste.*
JPEG AI und synthetische Bilder
Um zwischen JPEG AI-komprimierten und vollständig synthetischen Bildern zu unterscheiden, verwendeten die Forscher den Synthbuster-Datensatz, der echte Fotos aus der RAISE-Datenbank mit generierten Bildern von verschiedenen Modellen mischt. Sie komprimierten die echten Bilder mit JPEG AI bei verschiedenen Bitraten und verwendeten einen Random Forest-Klassifikator auf Quantisierungsmerkmalen, die aus einem festen Bereich extrahiert wurden. Der quantisierungsbasierte Ansatz übertraf das ResNet50-Baseline, insbesondere bei niedrigeren Bitraten, wo Kompressionsartefakte ausgeprägter waren.
*Beispiele für synthetische Bilder in Synthbuster, generiert mit Textprompts, die von natürlichen Fotos aus dem RAISE-1k-Datensatz inspiriert sind. Die Bilder wurden mit verschiedenen Diffusionsmodellen erstellt, mit Prompts, die darauf ausgelegt sind, fotorealistische Inhalte und Texturen zu erzeugen, anstatt stilisierte oder künstlerische Darstellungen.* Quelle: https://ieeexplore.ieee.org/document/10334046
*Klassifikationsgenauigkeit eines Random Forest, der Quantisierungsmerkmale verwendet, um JPEG AI-komprimierte Bilder von synthetischen Bildern zu trennen.*
Die Autoren stellten fest, dass die Quantisierungsmerkmale gut über Kompressionsstärken und Generatortypen hinweg verallgemeinerten, wobei der vollständige ganzzahlige Vektor eine höhere Genauigkeit bei der Erkennung von JPEG AI-komprimierten Bildern bot. Eine UMAP-Visualisierung zeigte eine klare Trennung zwischen JPEG AI und synthetischen Bildern, wobei niedrigere Bitraten die Distanz zwischen den Klassen erhöhten.
*Zweidimensionale UMAP-Visualisierung von JPEG AI-komprimierten und synthetischen Bildern, basierend auf Quantisierungsmerkmalen. Das linke Diagramm zeigt, dass niedrigere JPEG AI-Bitraten eine größere Trennung von synthetischen Bildern erzeugen; das rechte Diagramm zeigt, wie Bilder von verschiedenen Generatoren innerhalb des Merkmalsraums unterschiedlich clusteren.*
Abschließend bewerteten die Forscher die Robustheit dieser Merkmale unter typischer Nachbearbeitung wie JPEG-Rekompression und Bildskalierung. Während die Leistung bei stärkerer Verarbeitung abnahm, war der Rückgang allmählich, was auf eine gewisse Widerstandsfähigkeit des Ansatzes hinweist.
*Bewertung der Robustheit von Quantisierungsmerkmalen unter Nachbearbeitung, einschließlich JPEG-Rekompression (JPG) und Bildskalierung (RS).*
Fazit
Es ist ungewiss, ob JPEG AI weit verbreitet übernommen wird. Die bestehende Infrastruktur stellt Herausforderungen für jeden neuen Codec dar, und selbst etablierte Codecs wie AV1 haben Schwierigkeiten, ältere Methoden zu ersetzen. Wenn die Quantisierungsartefakte von JPEG AI weiterhin forensische Werkzeuge verwirren, könnte seine Akzeptanz behindert werden. Sollten zukünftige KI-Generatoren jedoch unterschiedliche forensische Spuren hinterlassen, könnten die aktuellen Probleme von JPEG AI weniger bedeutend sein. Dennoch könnte die weitverbreitete Nutzung von JPEG AI in Frage gestellt werden, wenn es die Grenze zwischen echten und generierten Bildern verwischt.
Erstmals veröffentlicht am Dienstag, 8. April 2025
Verwandter Artikel
KI-gestützte Musikerstellung: Songs und Videos mühelos erstellen
Musikerstellung kann komplex sein und erfordert Zeit, Ressourcen und Fachwissen. Künstliche Intelligenz hat diesen Prozess revolutioniert und ihn einfach und zugänglich gemacht. Dieser Leitfaden zeigt
Erstellung KI-gestützter Malbücher: Ein umfassender Leitfaden
Das Gestalten von Malbüchern ist ein lohnendes Unterfangen, das künstlerischen Ausdruck mit beruhigenden Erlebnissen für Nutzer verbindet. Der Prozess kann jedoch arbeitsintensiv sein. Glücklicherweis
Qodo Partnerschaft mit Google Cloud zur Bereitstellung kostenloser KI-Code-Review-Tools für Entwickler
Qodo, ein in Israel ansässiges KI-Startup für Codierung, das sich auf Codequalität konzentriert, hat eine Partnerschaft mit Google Cloud gestartet, um die Integrität von KI-generiertem Softwarecode zu
Kommentare (22)
0/200
ArthurSanchez
4. August 2025 08:48:52 MESZ
This JPEG AI thing is wild! Shrinking files while keeping images crisp? I'm all for it, but wonder if it'll make fake images too convincing. 😅
0
JohnYoung
1. August 2025 04:48:18 MESZ
This JPEG AI thing is wild! Shrinking file sizes while keeping images crisp? That's like magic for my phone storage. Can't wait to see how it changes photo sharing! 📸
0
LawrenceLopez
23. April 2025 10:10:33 MESZ
JPEG AI é incrível! Comprime imagens muito bem e ainda assim elas parecem ótimas. Economizei muito espaço no meu celular. Mas às vezes, as imagens parecem um pouco artificiais, o que é estranho. Ainda assim, é essencial para quem lida com muitas fotos! 😊
0
HaroldLopez
23. April 2025 03:34:54 MESZ
JPEG AI는 꽤 괜찮지만, 실제와 합성 이미지의 경계를 흐리게 하는 것이 이상해요. 온라인에서 보는 모든 것을 의심하게 만드네요! 🤔 그래도 공간을 절약하는 데는 유용해요.
0
JerryGonzález
23. April 2025 00:00:58 MESZ
JPEG AIは便利ですが、リアルと合成の画像の境界が曖昧になるのは不思議です。オンラインで見るもの全てに疑問を持ってしまいます!🤔 それでも、スペースを節約するのに役立ちますね。
0
WillMitchell
22. April 2025 14:18:56 MESZ
JPEG AI es increíble! Comprime las imágenes muy bien y aún así se ven geniales. He ahorrado mucho espacio en mi teléfono. Pero a veces, las imágenes parecen un poco artificiales, lo que es raro. Aún así, es imprescindible para quien maneja muchas fotos! 😎
0
Zurück im Februar dieses Jahres wurde der internationale Standard JPEG AI nach Jahren der Entwicklung eingeführt. Dieser neue Standard nutzt maschinelles Lernen, um die Dateigröße von Bildern zu reduzieren, während die wahrnehmbare Qualität erhalten bleibt, was die Speicherung und Übertragung von Bildern erleichtert. Aber hier ist der Haken: Trotz seines Potenzials machte JPEG AI nicht viel Schlagzeilen. Warum? Nun, es stellte sich heraus, dass die zentralen Dokumente, die diesen Durchbruch ankündigten, nicht frei verfügbar waren – selbst auf Plattformen wie Arxiv, die normalerweise solche Forschungen hosten. Ironischerweise veröffentlichte Arxiv mehrere Studien zu JPEG AI, die dessen einzigartige Kompressionsartefakte und Auswirkungen auf die Forensik untersuchten.
*Aus dem offiziellen Veröffentlichungsstrom für JPEG AI, ein Vergleich zwischen dem Spitzen-Signal-Rausch-Verhältnis (PSNR) und dem ML-unterstützten Ansatz von JPEG AI.* Quelle: https://jpeg.org/jpegai/documentation.html
Eine Studie hob beispielsweise hervor, dass JPEG AI dazu neigt, Text unscharf zu machen, was ein erhebliches Problem darstellt, wenn diese Bilder in rechtlichen Kontexten verwendet werden, wo Klarheit wichtig ist. Der Grund für dieses Problem? Die Kompressionsmethode von JPEG AI imitiert die visuellen Eigenheiten von synthetischen Bildgeneratoren, was es bestehenden forensischen Werkzeugen erschwert, Echtes von Falschem zu unterscheiden.
*Eine Studie verglich Kompressionsartefakte, einschließlich derer eines früheren Entwurfs von JPEG AI, und stellte fest, dass die neue Methode dazu neigt, Text unscharf zu machen – kein geringes Problem in Fällen, in denen der Codec zu einer Beweiskette beitragen könnte.* Quelle: https://arxiv.org/pdf/2411.06810
Die Verwirrung rührt daher, dass JPEG AI eine Modellarchitektur verwendet, die den generativen Systemen ähnelt, die forensische Werkzeuge erkennen sollen. Diese Ähnlichkeit bedeutet, dass beide ähnliche visuelle Hinweise hinterlassen könnten, was die forensische Analyse erschwert.
*Nach der JPEG AI-Kompression können hochmoderne Algorithmen authentische Inhalte nicht mehr zuverlässig von manipulierten Bereichen in Lokalisierungskarten trennen, laut einem aktuellen Paper (März 2025). Die Quellbeispiele links sind manipulierte/falsche Bilder, bei denen die veränderten Bereiche unter standardmäßigen forensischen Techniken klar abgegrenzt sind (mittleres Bild). Die JPEG AI-Kompression verleiht den gefälschten Bildern jedoch eine Schicht Glaubwürdigkeit (Bild ganz rechts).* Quelle: https://arxiv.org/pdf/2412.03261
Beide Modelle verwenden eine Technik namens Quantisierung, die hier entscheidend ist. Die Quantisierung wandelt kontinuierliche Daten in diskrete Punkte um, ein Prozess, der sowohl für die Reduzierung der Dateigröße als auch für die Effizienzsteigerung von maschinellen Lernmodellen unerlässlich ist. Bei JPEG AI hilft sie, die benötigten Daten zur Speicherung oder Übertragung von Bildern zu reduzieren, indem die numerische Darstellung innerhalb des Bildes vereinfacht wird. Dies führt jedoch auch zu Mustern, die denen von generativen Modellen ähneln und forensische Werkzeuge täuschen.
*Das neue Paper zeigt die Ähnlichkeit zwischen den Methoden der KI-gesteuerten Bildkompression und tatsächlichen KI-generierten Bildern.* Quelle: https://arxiv.org/pdf/2504.03191
Quantisierung
Quantisierung in diesem Kontext bedeutet die Umwandlung der kontinuierlichen Werte in der latenten Darstellung eines Bildes in feste, diskrete Schritte. Dies macht die Kodierung effizienter, führt aber auch zu strukturellen Regelmäßigkeiten, die die Artefakte generativer Modelle nachahmen können, subtil, aber störend genug, um forensische Werkzeuge herauszufordern.
Als Reaktion darauf haben Forscher in einem Paper mit dem Titel **Drei forensische Hinweise für JPEG AI-Bilder** nicht-neurale, interpretierbare Methoden vorgeschlagen, um JPEG AI-Kompression zu erkennen, Rekompression zu identifizieren und echte von KI-generierten Bildern zu unterscheiden.
Methode
Farbkorrelationen
Das Paper stellt drei forensische Hinweise vor, die auf JPEG AI zugeschnitten sind: Korrelationen zwischen Farbkanälen, Verzerrungen der Bildqualität bei mehrfachen Kompressionen und Quantisierungsmuster im latenten Raum. Die Vorverarbeitung von JPEG AI führt statistische Abhängigkeiten zwischen den Farbkanälen ein, was eine einzigartige Signatur erzeugt. Beispielsweise wandelt es RGB-Bilder in den YUV-Farbraum um und verwendet 4:2:0-Chroma-Subsampling, das die Chrominanzkanäle vor der Kompression herunterskaliert. Dies führt zu subtilen Korrelationen zwischen den Hochfrequenzresten der roten, grünen und blauen Kanäle, die sich von denen in unkomprimierten Bildern oder solchen, die mit traditionellem JPEG oder synthetischen Bildgeneratoren erzeugt wurden, unterscheiden.
*Ein Vergleich, wie die JPEG AI-Kompression Farbkorrelationen in Bildern verändert.*
Das obige Bild aus dem Paper zeigt, wie die JPEG AI-Kompression Farbkorrelationen beeinflusst, insbesondere mit Fokus auf den roten Kanal. Es zeigt, dass die Kompression die Interkanal-Korrelationen erheblich steigert, und selbst nur die Vorverarbeitungsschritte allein erhöhen diese Korrelationen spürbar.
Rate-Distortion
Der Rate-Distortion-Hinweis verfolgt, wie die Bildqualität, gemessen am Spitzen-Signal-Rausch-Verhältnis (PSNR), bei mehrfachen Kompressionen mit JPEG AI vorhersehbar abnimmt. Die Forschung legt nahe, dass jede Kompressionsrunde fortschreitend kleinere, aber messbare Qualitätsverluste verursacht, die als forensischer Indikator für Rekompression dienen können. Im Gegensatz zu traditionellem JPEG, wo spezifische Bildblöcke überwacht wurden, erfordert die neuronale Architektur von JPEG AI die Verfolgung von Änderungen in Bitrate und PSNR über Kompressionen hinweg.
*Eine Illustration, wie wiederholte Kompression die Bildqualität über verschiedene Codecs hinweg beeinflusst, mit Ergebnissen von JPEG AI und einem neuronalen Codec, entwickelt unter https://arxiv.org/pdf/1802.01436; beide zeigen einen stetigen Rückgang des PSNR bei jeder zusätzlichen Kompression, selbst bei niedrigeren Bitraten. Im Gegensatz dazu hält traditionelle JPEG-Kompression die Qualität bei mehrfachen Kompressionen relativ stabil, es sei denn, die Bitrate ist hoch.*
Die dargestellten Rate-Distortion-Kurven zeigen, dass JPEG AI und ein anderer neuronaler Codec über alle Bitraten hinweg einen konsistenten PSNR-Rückgang aufweisen, während traditionelles JPEG nur bei höheren Bitraten merklich abbaut. Dieses Verhalten liefert ein klares Signal zur Erkennung von Rekompression in JPEG AI-Bildern.
Quantisierung
Eine der größten forensischen Herausforderungen bei JPEG AI ist seine visuelle Ähnlichkeit mit Bildern, die von Diffusionsmodellen erstellt wurden, da beide Encoder-Decoder-Architekturen verwenden, die Bilder in komprimierten latenten Räumen verarbeiten. JPEG AI wendet jedoch Quantisierung an, um latente Werte für eine effiziente Kompression zu runden, ein Schritt, der bei generativen Modellen typischerweise nicht verwendet wird. Das neue Paper nutzt diesen Unterschied, um einen forensischen Hinweis zu entwickeln, der die Anwesenheit von Quantisierung testet, indem analysiert wird, wie die latente Darstellung mit gerundeten Werten übereinstimmt. Diese Muster, obwohl für das Auge unsichtbar, helfen, komprimierte echte Bilder von synthetischen zu unterscheiden.
*Ein Beispiel für durchschnittliche Fourier-Spektren zeigt, dass sowohl JPEG AI-komprimierte Bilder als auch solche, die von Diffusionsmodellen wie Midjourney-V5 und Stable Diffusion XL generiert wurden, regelmäßige gitterartige Muster im Frequenzbereich aufweisen – Artefakte, die üblicherweise mit Upsampling verbunden sind. Im Gegensatz dazu fehlen echten Bildern diese Muster.*
Dieser Hinweis bleibt über verschiedene generative Modelle und starke Kompressionen hinweg effektiv und bietet eine praktische Methode, um zwischen komprimierten echten und synthetischen Bildern zu unterscheiden.
Daten und Tests
Kompression
Um den Farbkorrelationshinweis zur Erkennung von JPEG AI-Kompression zu testen, verwendeten die Forscher hochqualitative unkomprimierte Bilder aus dem RAISE-Datensatz, die sie mit der JPEG AI-Referenzimplementierung bei verschiedenen Bitraten komprimierten. Sie trainierten einen einfachen Random Forest auf den Farbkanal-Korrelationen und verglichen ihn mit einem ResNet50, der auf Bildpixel trainiert wurde. Die Ergebnisse zeigten, dass ResNet50 unter passenden Testbedingungen gut abschnitt, aber Schwierigkeiten hatte, auf verschiedene Kompressionsstufen zu verallgemeinern. Der korrelationsbasierte Ansatz erwies sich jedoch als konsistenter, insbesondere bei niedrigeren Bitraten, wo die Auswirkungen der Vorverarbeitung von JPEG AI stärker sind.
*Erkennungsgenauigkeit der JPEG AI-Kompression mit Farbkorrelationsmerkmalen, verglichen über mehrere Bitraten. Die Methode ist am effektivsten bei niedrigeren Bitraten, wo Kompressionsartefakte stärker sind, und zeigt eine bessere Verallgemeinerung auf ungesehene Kompressionsstufen als das Baseline-ResNet50-Modell.*
Rekompression
Zur Erkennung von JPEG AI-Rekompression verwendeten die Forscher den Rate-Distortion-Hinweis auf Bilder, die bei verschiedenen Bitraten komprimiert wurden, einige einmal und einige zweimal. Sie extrahierten einen 17-dimensionalen Merkmalsvektor, um Änderungen in Bitrate und PSNR über Kompressionen hinweg zu verfolgen. Ein Random Forest, der auf diesen Merkmalen trainiert wurde, übertraf durchweg ein ResNet50, das auf Bildausschnitten trainiert wurde, insbesondere wenn die anfängliche Kompression stark war. Die Methode blieb stabil über verschiedene Szenarien hinweg und verallgemeinerte sogar auf einen anderen KI-basierten Codec.
*Ergebnisse für die Klassifikationsgenauigkeit eines Random Forest, der auf Rate-Distortion-Merkmalen trainiert wurde, um zu erkennen, ob ein JPEG AI-Bild rekomprimiert wurde. Die Methode funktioniert am besten, wenn die anfängliche Kompression stark ist (d.h. bei niedrigeren Bitraten), und übertrifft dann durchweg ein pixelbasiertes ResNet50 – insbesondere in Fällen, in denen die zweite Kompression milder ist als die erste.*
JPEG AI und synthetische Bilder
Um zwischen JPEG AI-komprimierten und vollständig synthetischen Bildern zu unterscheiden, verwendeten die Forscher den Synthbuster-Datensatz, der echte Fotos aus der RAISE-Datenbank mit generierten Bildern von verschiedenen Modellen mischt. Sie komprimierten die echten Bilder mit JPEG AI bei verschiedenen Bitraten und verwendeten einen Random Forest-Klassifikator auf Quantisierungsmerkmalen, die aus einem festen Bereich extrahiert wurden. Der quantisierungsbasierte Ansatz übertraf das ResNet50-Baseline, insbesondere bei niedrigeren Bitraten, wo Kompressionsartefakte ausgeprägter waren.
*Beispiele für synthetische Bilder in Synthbuster, generiert mit Textprompts, die von natürlichen Fotos aus dem RAISE-1k-Datensatz inspiriert sind. Die Bilder wurden mit verschiedenen Diffusionsmodellen erstellt, mit Prompts, die darauf ausgelegt sind, fotorealistische Inhalte und Texturen zu erzeugen, anstatt stilisierte oder künstlerische Darstellungen.* Quelle: https://ieeexplore.ieee.org/document/10334046
*Klassifikationsgenauigkeit eines Random Forest, der Quantisierungsmerkmale verwendet, um JPEG AI-komprimierte Bilder von synthetischen Bildern zu trennen.*
Die Autoren stellten fest, dass die Quantisierungsmerkmale gut über Kompressionsstärken und Generatortypen hinweg verallgemeinerten, wobei der vollständige ganzzahlige Vektor eine höhere Genauigkeit bei der Erkennung von JPEG AI-komprimierten Bildern bot. Eine UMAP-Visualisierung zeigte eine klare Trennung zwischen JPEG AI und synthetischen Bildern, wobei niedrigere Bitraten die Distanz zwischen den Klassen erhöhten.
*Zweidimensionale UMAP-Visualisierung von JPEG AI-komprimierten und synthetischen Bildern, basierend auf Quantisierungsmerkmalen. Das linke Diagramm zeigt, dass niedrigere JPEG AI-Bitraten eine größere Trennung von synthetischen Bildern erzeugen; das rechte Diagramm zeigt, wie Bilder von verschiedenen Generatoren innerhalb des Merkmalsraums unterschiedlich clusteren.*
Abschließend bewerteten die Forscher die Robustheit dieser Merkmale unter typischer Nachbearbeitung wie JPEG-Rekompression und Bildskalierung. Während die Leistung bei stärkerer Verarbeitung abnahm, war der Rückgang allmählich, was auf eine gewisse Widerstandsfähigkeit des Ansatzes hinweist.
*Bewertung der Robustheit von Quantisierungsmerkmalen unter Nachbearbeitung, einschließlich JPEG-Rekompression (JPG) und Bildskalierung (RS).*
Fazit
Es ist ungewiss, ob JPEG AI weit verbreitet übernommen wird. Die bestehende Infrastruktur stellt Herausforderungen für jeden neuen Codec dar, und selbst etablierte Codecs wie AV1 haben Schwierigkeiten, ältere Methoden zu ersetzen. Wenn die Quantisierungsartefakte von JPEG AI weiterhin forensische Werkzeuge verwirren, könnte seine Akzeptanz behindert werden. Sollten zukünftige KI-Generatoren jedoch unterschiedliche forensische Spuren hinterlassen, könnten die aktuellen Probleme von JPEG AI weniger bedeutend sein. Dennoch könnte die weitverbreitete Nutzung von JPEG AI in Frage gestellt werden, wenn es die Grenze zwischen echten und generierten Bildern verwischt.
Erstmals veröffentlicht am Dienstag, 8. April 2025




This JPEG AI thing is wild! Shrinking files while keeping images crisp? I'm all for it, but wonder if it'll make fake images too convincing. 😅




This JPEG AI thing is wild! Shrinking file sizes while keeping images crisp? That's like magic for my phone storage. Can't wait to see how it changes photo sharing! 📸




JPEG AI é incrível! Comprime imagens muito bem e ainda assim elas parecem ótimas. Economizei muito espaço no meu celular. Mas às vezes, as imagens parecem um pouco artificiais, o que é estranho. Ainda assim, é essencial para quem lida com muitas fotos! 😊




JPEG AI는 꽤 괜찮지만, 실제와 합성 이미지의 경계를 흐리게 하는 것이 이상해요. 온라인에서 보는 모든 것을 의심하게 만드네요! 🤔 그래도 공간을 절약하는 데는 유용해요.




JPEG AIは便利ですが、リアルと合成の画像の境界が曖昧になるのは不思議です。オンラインで見るもの全てに疑問を持ってしまいます!🤔 それでも、スペースを節約するのに役立ちますね。




JPEG AI es increíble! Comprime las imágenes muy bien y aún así se ven geniales. He ahorrado mucho espacio en mi teléfono. Pero a veces, las imágenes parecen un poco artificiales, lo que es raro. Aún así, es imprescindible para quien maneja muchas fotos! 😎












