JPEG AI:模糊真實圖像和合成圖像之間的界線
今年二月,JPEG AI國際標準在多年研發後正式登場。這項新標準利用機器學習縮減圖像檔案大小,同時保持感知品質完整,使圖像更容易儲存和傳送。但問題在於:儘管具備潛力,JPEG AI並未在新聞頭條中引起太多關注。為什麼?原來,宣布這項突破的核心文件並非免費提供—even在像Arxiv這樣通常托管此類研究的平台上也是如此。諷刺的是,Arxiv確實發布了幾篇關於JPEG AI的研究,探討其獨特的壓縮偽影及其對鑑識科學的影響。
*來自JPEG AI官方出版串流的比較,展示了峰值訊噪比(PSNR)與JPEG AI的機器學習增強方法之間的對比。* 來源:https://jpeg.org/jpegai/documentation.html
例如,一項研究指出,JPEG AI傾向於模糊文字,這在需要清晰度的法律情境中是一個重大問題。造成此問題的原因?JPEG AI的壓縮方法模仿了合成圖像生成器的視覺特性,使得現有鑑識工具難以分辨真偽。
*一項研究比較了壓縮偽影,包括JPEG AI早期草案的偽影,發現新方法有模糊文字的傾向——這在編解碼器可能影響證據鏈的情況下並非小事。* 來源:https://arxiv.org/pdf/2411.06810
混淆源於JPEG AI使用的模型架構與鑑識工具設計用於檢測的生成系統相似。這種相似性意味著兩者可能留下相似的視覺線索,複雜化鑑識分析。
*根據2025年3月的一篇最新論文,經過JPEG AI壓縮後,最先進的演算法無法在定位圖中可靠地區分真實內容與被操縱的區域。左邊的來源範例是經過操縱/偽造的圖像,在標準鑑識技術下(中間圖像),篡改區域清晰可辨。然而,JPEG AI壓縮為偽造圖像增添了一層可信度(最右邊的圖像)。* 來源:https://arxiv.org/pdf/2412.03261
兩種模型都使用了名為量化的技術,這在這裡至關重要。量化將連續數據轉換為離散點,這一過程對於減少檔案大小和提高機器學習模型效率至關重要。在JPEG AI中,它通過簡化圖像內的數值表示來減少儲存或傳輸圖像所需的數據。然而,這也引入了與生成模型相似的模式,誤導了鑑識工具。
*新論文展示了AI驅動的圖像壓縮方法與實際AI生成圖像的方法相似性。* 來源:https://arxiv.org/pdf/2504.03191
量化
在此情境中,量化是指將圖像潛在表示中的連續值轉換為固定的離散步驟。這使得編碼更有效率,但也引入了結構規律性,可能模仿生成模型的偽影,這些偽影雖然微妙,但足以挑戰鑑識工具。
為應對此問題,一篇名為**JPEG AI圖像的三個鑑識線索**的論文提出了非神經、可解釋的方法,用於檢測JPEG AI壓縮、識別重新壓縮以及區分真實與AI生成的圖像。
方法
色彩相關性
該論文介紹了針對JPEG AI的三個鑑識線索:色彩通道相關性、多次壓縮中的圖像品質失真以及潛在空間中的量化模式。JPEG AI的預處理在色彩通道之間引入了統計依賴,創造出獨特的特徵。例如,它將RGB圖像轉換為YUV色彩空間,並使用4:2:0色度子採樣,在壓縮前降低色度通道的分辨率。這導致紅、綠、藍通道的高頻殘差之間產生細微相關性,與未壓縮圖像、傳統JPEG或合成圖像生成器產生的圖像不同。
*比較JPEG AI壓縮如何改變圖像中的色彩相關性。*
來自該論文的上述圖像展示了JPEG AI壓縮如何影響色彩相關性,特別聚焦於紅色通道。它顯示壓縮顯著提高了通道間相關性,即使僅預處理步驟也顯著增加這些相關性。
速率-失真
速率-失真線索追蹤圖像品質(以峰值訊噪比(PSNR)測量)在JPEG AI多次壓縮中可預測的下降。研究表明,每輪壓縮導致逐漸減小的但可測量的品質損失,這可用作重新壓縮的鑑識指標。與傳統JPEG監控特定圖像塊不同,JPEG AI的神經架構需要追蹤壓縮過程中的比特率和PSNR變化。
*展示了多次壓縮如何影響不同編解碼器的圖像品質,包含JPEG AI和在https://arxiv.org/pdf/1802.01436開發的神經編解碼器的結果;兩者在每次額外壓縮時PSNR穩定下降,即使在較低比特率下也是如此。相比之下,傳統JPEG壓縮在多次壓縮中保持相對穩定的品質,除非比特率很高。*
繪製的速率-失真曲線顯示,JPEG AI和另一神經編解碼器在所有比特率下顯示一致的PSNR下降,而傳統JPEG僅在較高比特率下顯著下降。這種行為為檢測JPEG AI圖像的重新壓縮提供了清晰的信號。
量化
JPEG AI鑑識中最棘手的挑戰之一是其與擴散模型創建的圖像在視覺上的相似性,兩者均使用編碼器-解碼器架構在壓縮潛在空間中處理圖像。然而,JPEG AI應用量化來四捨五入潛在值以實現高效壓縮,這是生成模型通常不使用的步驟。新論文利用這一差異設計了一個鑑識線索,通過分析潛在表示如何與四捨五入值對齊來測試量化的存在。這些模式雖然肉眼不可見,但有助於區分壓縮真實圖像與合成圖像。
*平均傅立葉光譜的範例顯示,JPEG AI壓縮圖像和由擴散模型如Midjourney-V5和Stable Diffusion XL生成的圖像在頻率域中呈現規則的網格狀模式——這些偽影通常與上採樣相關。相比之下,真實圖像缺乏這些模式。這種光譜結構的重疊解釋了為什麼鑑識工具經常將壓縮真實圖像與合成圖像混淆。*
此線索在各種生成模型和強壓縮下保持有效,提供了一種實用的方法來區分壓縮真實圖像與合成圖像。
數據與測試
壓縮
為測試檢測JPEG AI壓縮的色彩相關性線索,研究人員使用來自RAISE數據集的高品質未壓縮圖像,以不同比特率使用JPEG AI參考實現進行壓縮。他們在色彩通道相關性上訓練了一個簡單的隨機森林,並與在圖像像素上訓練的ResNet50進行比較。結果顯示,雖然ResNet50在匹配測試條件下表現良好,但難以泛化到不同壓縮水平。然而,基於相關性的方法證明更一致,特別是在JPEG AI預處理影響較強的較低比特率下。
*使用色彩相關性特徵檢測JPEG AI壓縮的準確性,跨多個比特率進行比較。該方法在壓縮偽影較強的較低比特率下最有效,且比基線ResNet50模型展示出對未見壓縮水平的更好泛化能力。*
重新壓縮
為檢測JPEG AI重新壓縮,研究人員在不同比特率下壓縮圖像(一些壓縮一次,一些壓縮兩次)使用速率-失真線索。他們提取了一個17維特徵向量來追蹤壓縮過程中的比特率和PSNR變化。在這些特徵上訓練的隨機森林始終優於在圖像塊上訓練的ResNet50,特別是在初始壓縮較強時。該方法在各種場景中保持穩定,甚至泛化到另一個基於AI的編解碼器。
*使用速率-失真特徵訓練的隨機森林對JPEG AI圖像是否被重新壓縮的分類準確性結果。該方法在初始壓縮較強(即較低比特率)時表現最佳,且始終優於基於像素的ResNet50——特別是在第二次壓縮比第一次溫和的情況下。*
JPEG AI與合成圖像
最後,為區分JPEG AI壓縮圖像與完全合成圖像,研究人員使用Synthbuster數據集,混合來自RAISE數據庫的真實照片與來自各種模型的生成圖像。他們使用JPEG AI以不同比特率壓縮真實圖像,並在固定區域提取的量化特徵上使用隨機森林分類器。基於量化的方法優於ResNet50基線,特別是在壓縮偽影更明顯的較低比特率下。
*Synthbuster中合成圖像的範例,使用受RAISE-1k數據集自然照片啟發的文字提示生成。圖像使用各種擴散模型創建,提示設計為生成逼真的內容和紋理,而非風格化或藝術化的渲染。* 來源:https://ieeexplore.ieee.org/document/10334046
*使用量化特徵的隨機森林分類JPEG AI壓縮圖像與合成圖像的準確性。*
作者指出,量化特徵在壓縮強度和生成器類型上泛化良好,完整的整數向量在檢測JPEG AI壓縮圖像時提供更高的準確性。UMAP可視化顯示JPEG AI與合成圖像之間的清晰分離,較低比特率增加了類別之間的距離。
*基於量化特徵的JPEG AI壓縮與合成圖像的二維UMAP可視化。左圖顯示較低的JPEG AI比特率與合成圖像之間產生更大的分離;右圖顯示來自不同生成器的圖像在特徵空間中如何形成明顯的集群。*
最後,研究人員評估了這些特徵在典型後處理(如JPEG重新壓縮和圖像縮放)下的穩健性。雖然在較重的處理下性能下降,但下降是漸進的,顯示出該方法的某種韌性。
結論
目前尚不清楚JPEG AI是否會被廣泛採用。現有基礎設施對任何新編解碼器構成挑戰,即使是像AV1這樣已建立的編解碼器也難以取代舊方法。如果JPEG AI的量化偽影繼續混淆鑑識工具,其採用可能會受阻。然而,如果未來的AI生成器留下不同的鑑識痕跡,JPEG AI目前的問題可能不那麼重要。儘管如此,如果JPEG AI模糊了真實與生成圖像之間的界線,其廣泛使用可能會受到質疑。
首次發布於2025年4月8日星期二
相關文章
AIGCPanel 2.0.0 重大更新:工作流程引擎開啟自動化數位人偶創作的新紀元
AIGCPanel 是一款強大的本地數位人類創作工具,其 2.0.0 版本已正式上線,被譽為「迄今為止最重大的更新」。 此次核心全面升級,透過工作流程引擎與 CLI 命令列工具,將數位人合成、聲音克隆及影音處理功能整合,從手動組裝轉向自動化生產,有效解決了 AI 創作工具的分散問題。1. 核心升級:定義邏輯流程,一鍵輸出AIGCPanel 2.0.0 最引人注目的新功能是「工作流程引擎」:基於節點
BuzzFeed 推出專營 AI 垃圾應用程式的子公司
在面臨重大經營危機之際,昔日的數位媒體巨頭 BuzzFeed 正啟動一項由人工智慧驅動的雄心勃勃的自救實驗。 在最近舉行的SXSW大會上,共同創辦人兼執行長喬納·佩雷蒂(Jonah Peretti)宣布成立一家名為Branch Office的子公司,旨在透過一系列由人工智慧驅動的消費者應用程式,重新定義「軟體即內容」的商業模式。核心產品組合:融合迷因與社交媒體Branch Office 已推出三款
ChatGPT 成人模式再度延遲;Ultraman:智慧優先
OpenAI 再次推遲爭議性功能,聚焦於個人化與主動互動「不當內容」是否應納入高效能的 AI 工具,長期以來在科技界引發熱議。 OpenAI 曾承諾要讓 ChatGPT 更理解成人用戶,但再次讓期待這項變革的人們感到失望。根據 IT Home 的報導,該公司最近證實,原本預計於 2026 年第一季推出的所謂「成人模式」,已再度延期。這並非 Sam Altman 首次食言。早在 2025 年底,他就
相關專題推薦
評論 (22)
0/500
This JPEG AI thing is wild! Shrinking files while keeping images crisp? I'm all for it, but wonder if it'll make fake images too convincing. 😅
This JPEG AI thing is wild! Shrinking file sizes while keeping images crisp? That's like magic for my phone storage. Can't wait to see how it changes photo sharing! 📸
JPEG AI é incrível! Comprime imagens muito bem e ainda assim elas parecem ótimas. Economizei muito espaço no meu celular. Mas às vezes, as imagens parecem um pouco artificiais, o que é estranho. Ainda assim, é essencial para quem lida com muitas fotos! 😊
今年二月,JPEG AI國際標準在多年研發後正式登場。這項新標準利用機器學習縮減圖像檔案大小,同時保持感知品質完整,使圖像更容易儲存和傳送。但問題在於:儘管具備潛力,JPEG AI並未在新聞頭條中引起太多關注。為什麼?原來,宣布這項突破的核心文件並非免費提供—even在像Arxiv這樣通常托管此類研究的平台上也是如此。諷刺的是,Arxiv確實發布了幾篇關於JPEG AI的研究,探討其獨特的壓縮偽影及其對鑑識科學的影響。
*來自JPEG AI官方出版串流的比較,展示了峰值訊噪比(PSNR)與JPEG AI的機器學習增強方法之間的對比。* 來源:https://jpeg.org/jpegai/documentation.html
例如,一項研究指出,JPEG AI傾向於模糊文字,這在需要清晰度的法律情境中是一個重大問題。造成此問題的原因?JPEG AI的壓縮方法模仿了合成圖像生成器的視覺特性,使得現有鑑識工具難以分辨真偽。
*一項研究比較了壓縮偽影,包括JPEG AI早期草案的偽影,發現新方法有模糊文字的傾向——這在編解碼器可能影響證據鏈的情況下並非小事。* 來源:https://arxiv.org/pdf/2411.06810
混淆源於JPEG AI使用的模型架構與鑑識工具設計用於檢測的生成系統相似。這種相似性意味著兩者可能留下相似的視覺線索,複雜化鑑識分析。
*根據2025年3月的一篇最新論文,經過JPEG AI壓縮後,最先進的演算法無法在定位圖中可靠地區分真實內容與被操縱的區域。左邊的來源範例是經過操縱/偽造的圖像,在標準鑑識技術下(中間圖像),篡改區域清晰可辨。然而,JPEG AI壓縮為偽造圖像增添了一層可信度(最右邊的圖像)。* 來源:https://arxiv.org/pdf/2412.03261
兩種模型都使用了名為量化的技術,這在這裡至關重要。量化將連續數據轉換為離散點,這一過程對於減少檔案大小和提高機器學習模型效率至關重要。在JPEG AI中,它通過簡化圖像內的數值表示來減少儲存或傳輸圖像所需的數據。然而,這也引入了與生成模型相似的模式,誤導了鑑識工具。
*新論文展示了AI驅動的圖像壓縮方法與實際AI生成圖像的方法相似性。* 來源:https://arxiv.org/pdf/2504.03191
量化
在此情境中,量化是指將圖像潛在表示中的連續值轉換為固定的離散步驟。這使得編碼更有效率,但也引入了結構規律性,可能模仿生成模型的偽影,這些偽影雖然微妙,但足以挑戰鑑識工具。
為應對此問題,一篇名為**JPEG AI圖像的三個鑑識線索**的論文提出了非神經、可解釋的方法,用於檢測JPEG AI壓縮、識別重新壓縮以及區分真實與AI生成的圖像。
方法
色彩相關性
該論文介紹了針對JPEG AI的三個鑑識線索:色彩通道相關性、多次壓縮中的圖像品質失真以及潛在空間中的量化模式。JPEG AI的預處理在色彩通道之間引入了統計依賴,創造出獨特的特徵。例如,它將RGB圖像轉換為YUV色彩空間,並使用4:2:0色度子採樣,在壓縮前降低色度通道的分辨率。這導致紅、綠、藍通道的高頻殘差之間產生細微相關性,與未壓縮圖像、傳統JPEG或合成圖像生成器產生的圖像不同。
*比較JPEG AI壓縮如何改變圖像中的色彩相關性。*
來自該論文的上述圖像展示了JPEG AI壓縮如何影響色彩相關性,特別聚焦於紅色通道。它顯示壓縮顯著提高了通道間相關性,即使僅預處理步驟也顯著增加這些相關性。
速率-失真
速率-失真線索追蹤圖像品質(以峰值訊噪比(PSNR)測量)在JPEG AI多次壓縮中可預測的下降。研究表明,每輪壓縮導致逐漸減小的但可測量的品質損失,這可用作重新壓縮的鑑識指標。與傳統JPEG監控特定圖像塊不同,JPEG AI的神經架構需要追蹤壓縮過程中的比特率和PSNR變化。
*展示了多次壓縮如何影響不同編解碼器的圖像品質,包含JPEG AI和在https://arxiv.org/pdf/1802.01436開發的神經編解碼器的結果;兩者在每次額外壓縮時PSNR穩定下降,即使在較低比特率下也是如此。相比之下,傳統JPEG壓縮在多次壓縮中保持相對穩定的品質,除非比特率很高。*
繪製的速率-失真曲線顯示,JPEG AI和另一神經編解碼器在所有比特率下顯示一致的PSNR下降,而傳統JPEG僅在較高比特率下顯著下降。這種行為為檢測JPEG AI圖像的重新壓縮提供了清晰的信號。
量化
JPEG AI鑑識中最棘手的挑戰之一是其與擴散模型創建的圖像在視覺上的相似性,兩者均使用編碼器-解碼器架構在壓縮潛在空間中處理圖像。然而,JPEG AI應用量化來四捨五入潛在值以實現高效壓縮,這是生成模型通常不使用的步驟。新論文利用這一差異設計了一個鑑識線索,通過分析潛在表示如何與四捨五入值對齊來測試量化的存在。這些模式雖然肉眼不可見,但有助於區分壓縮真實圖像與合成圖像。
*平均傅立葉光譜的範例顯示,JPEG AI壓縮圖像和由擴散模型如Midjourney-V5和Stable Diffusion XL生成的圖像在頻率域中呈現規則的網格狀模式——這些偽影通常與上採樣相關。相比之下,真實圖像缺乏這些模式。這種光譜結構的重疊解釋了為什麼鑑識工具經常將壓縮真實圖像與合成圖像混淆。*
此線索在各種生成模型和強壓縮下保持有效,提供了一種實用的方法來區分壓縮真實圖像與合成圖像。
數據與測試
壓縮
為測試檢測JPEG AI壓縮的色彩相關性線索,研究人員使用來自RAISE數據集的高品質未壓縮圖像,以不同比特率使用JPEG AI參考實現進行壓縮。他們在色彩通道相關性上訓練了一個簡單的隨機森林,並與在圖像像素上訓練的ResNet50進行比較。結果顯示,雖然ResNet50在匹配測試條件下表現良好,但難以泛化到不同壓縮水平。然而,基於相關性的方法證明更一致,特別是在JPEG AI預處理影響較強的較低比特率下。
*使用色彩相關性特徵檢測JPEG AI壓縮的準確性,跨多個比特率進行比較。該方法在壓縮偽影較強的較低比特率下最有效,且比基線ResNet50模型展示出對未見壓縮水平的更好泛化能力。*
重新壓縮
為檢測JPEG AI重新壓縮,研究人員在不同比特率下壓縮圖像(一些壓縮一次,一些壓縮兩次)使用速率-失真線索。他們提取了一個17維特徵向量來追蹤壓縮過程中的比特率和PSNR變化。在這些特徵上訓練的隨機森林始終優於在圖像塊上訓練的ResNet50,特別是在初始壓縮較強時。該方法在各種場景中保持穩定,甚至泛化到另一個基於AI的編解碼器。
*使用速率-失真特徵訓練的隨機森林對JPEG AI圖像是否被重新壓縮的分類準確性結果。該方法在初始壓縮較強(即較低比特率)時表現最佳,且始終優於基於像素的ResNet50——特別是在第二次壓縮比第一次溫和的情況下。*
JPEG AI與合成圖像
最後,為區分JPEG AI壓縮圖像與完全合成圖像,研究人員使用Synthbuster數據集,混合來自RAISE數據庫的真實照片與來自各種模型的生成圖像。他們使用JPEG AI以不同比特率壓縮真實圖像,並在固定區域提取的量化特徵上使用隨機森林分類器。基於量化的方法優於ResNet50基線,特別是在壓縮偽影更明顯的較低比特率下。
*Synthbuster中合成圖像的範例,使用受RAISE-1k數據集自然照片啟發的文字提示生成。圖像使用各種擴散模型創建,提示設計為生成逼真的內容和紋理,而非風格化或藝術化的渲染。* 來源:https://ieeexplore.ieee.org/document/10334046
*使用量化特徵的隨機森林分類JPEG AI壓縮圖像與合成圖像的準確性。*
作者指出,量化特徵在壓縮強度和生成器類型上泛化良好,完整的整數向量在檢測JPEG AI壓縮圖像時提供更高的準確性。UMAP可視化顯示JPEG AI與合成圖像之間的清晰分離,較低比特率增加了類別之間的距離。
*基於量化特徵的JPEG AI壓縮與合成圖像的二維UMAP可視化。左圖顯示較低的JPEG AI比特率與合成圖像之間產生更大的分離;右圖顯示來自不同生成器的圖像在特徵空間中如何形成明顯的集群。*
最後,研究人員評估了這些特徵在典型後處理(如JPEG重新壓縮和圖像縮放)下的穩健性。雖然在較重的處理下性能下降,但下降是漸進的,顯示出該方法的某種韌性。
結論
目前尚不清楚JPEG AI是否會被廣泛採用。現有基礎設施對任何新編解碼器構成挑戰,即使是像AV1這樣已建立的編解碼器也難以取代舊方法。如果JPEG AI的量化偽影繼續混淆鑑識工具,其採用可能會受阻。然而,如果未來的AI生成器留下不同的鑑識痕跡,JPEG AI目前的問題可能不那麼重要。儘管如此,如果JPEG AI模糊了真實與生成圖像之間的界線,其廣泛使用可能會受到質疑。
首次發布於2025年4月8日星期二
AIGCPanel 2.0.0 重大更新:工作流程引擎開啟自動化數位人偶創作的新紀元
AIGCPanel 是一款強大的本地數位人類創作工具,其 2.0.0 版本已正式上線,被譽為「迄今為止最重大的更新」。 此次核心全面升級,透過工作流程引擎與 CLI 命令列工具,將數位人合成、聲音克隆及影音處理功能整合,從手動組裝轉向自動化生產,有效解決了 AI 創作工具的分散問題。1. 核心升級:定義邏輯流程,一鍵輸出AIGCPanel 2.0.0 最引人注目的新功能是「工作流程引擎」:基於節點
BuzzFeed 推出專營 AI 垃圾應用程式的子公司
在面臨重大經營危機之際,昔日的數位媒體巨頭 BuzzFeed 正啟動一項由人工智慧驅動的雄心勃勃的自救實驗。 在最近舉行的SXSW大會上,共同創辦人兼執行長喬納·佩雷蒂(Jonah Peretti)宣布成立一家名為Branch Office的子公司,旨在透過一系列由人工智慧驅動的消費者應用程式,重新定義「軟體即內容」的商業模式。核心產品組合:融合迷因與社交媒體Branch Office 已推出三款
ChatGPT 成人模式再度延遲;Ultraman:智慧優先
OpenAI 再次推遲爭議性功能,聚焦於個人化與主動互動「不當內容」是否應納入高效能的 AI 工具,長期以來在科技界引發熱議。 OpenAI 曾承諾要讓 ChatGPT 更理解成人用戶,但再次讓期待這項變革的人們感到失望。根據 IT Home 的報導,該公司最近證實,原本預計於 2026 年第一季推出的所謂「成人模式」,已再度延期。這並非 Sam Altman 首次食言。早在 2025 年底,他就
This JPEG AI thing is wild! Shrinking files while keeping images crisp? I'm all for it, but wonder if it'll make fake images too convincing. 😅
This JPEG AI thing is wild! Shrinking file sizes while keeping images crisp? That's like magic for my phone storage. Can't wait to see how it changes photo sharing! 📸
JPEG AI é incrível! Comprime imagens muito bem e ainda assim elas parecem ótimas. Economizei muito espaço no meu celular. Mas às vezes, as imagens parecem um pouco artificiais, o que é estranho. Ainda assim, é essencial para quem lida com muitas fotos! 😊





首頁






