Detecting GAN-generated Imagery using Color Cues


Abstract

    論文創新點:分析流行GAN網絡結構得知,GAN網絡生成得圖片在顏色處理與真實攝像機拍攝的照片存在不同,主要表現在兩方面。

    實驗結果:證明了兩種線索能夠有效區分GAN生成圖像和用於訓練GAN的真實圖像。


1.Introduction

    本片論文主要是研究GANs網絡生成圖片的取證檢測,雖然他們用肉眼無法區分,但是GANs生成的圖片在重要的一些方面和相機拍攝的圖像還是存在差別的。通過研究生成器網絡的結構,尤其注意到它是如何形成顏色的,並注意到兩者有兩個重要的區別:(這也就是摘要中的兩個像素)

  • 再某種方式限制飽和像素的頻率,對生成器內部值是被規范化(Normalized)的來限制輸出的大小。(First, the generator’s internal values are normalized to constrain the outputs, in a way which limits the frequency of saturated pixels.)

  • 生成器的對通道的內部表示類似於彩色RGB三通道像素合成的方式,但是所使用的權重與攝像機的類似光譜靈敏度完全不相同。(Second, the generator’s multi-channel internal representation is collapsed to red, green, and blue channels in a way that’s similar to models of color image formation, but uses weights that are quite different than the analogous spectral sensitivities of a camera.)

    以上的這兩個線索在檢測兩種類型的GAN圖像中是有效的,一種是由GAN完全生成的圖像,另一種是GAN生成的人臉替換真實圖像中的人臉。


2.Related Work

  1. 介紹了GAN網絡的一些基本知識和發展歷史。
  2. 論文中提到的檢測GAN網絡取證的方法:引用[9]利用DeepFake-type 視頻中是否眨眼來檢測;引用[10]基於XceptionNet;引用[5]開發了一個對比損失功能的取證鑒別器;引用[4]使用遞歸神經網絡檢測GAN視頻。
  3. 本論文是對上面的補充,旨在GAN生成器的結構上發現GAN生成的和相機拍攝的圖像在圖像統計上的區別。

3.GAN Generator Architecture

    本節內容,回顧GAN生成器的網絡架構,用兩個線索來區別GAN圖像和真實圖像。工作重點主要放在GAN之間的共同特征和生成器靠后的幾層,因為到達最后幾層的線索不太可能被后續的連續的處理改變。

Q0ZXAx.png

(圖2.高分辨的圖像是從輸入一個'latent vector‘,通過重復上采樣(將空間尺寸加倍),然后通過帶有leaky-ReLU和逐像素歸一化的3×3的卷積,最后通過一個1×1的卷積生成彩色圖像。)

    上圖是個典型的生成器結構,生成器的最后一層將生成3×H×W的輸出矩陣(3個顏色通道,W列和H行)。從輸入到輸出是一個大小為K×W×H的數組,其中K>3層稱為“深度”層。兩條重要的線索來自從K深度卷積層到RGB三通道的轉換過程中,將會在下面介紹。


3.1. Color Image Formation

    在最后一個網絡層將K>3個深度層折疊成RGB三個通道的過程,類似於照相機的濾色器陣列將三個波段上的光積分以形成彩色圖像的機制。如下圖所示。多個深度層以加權總和進行組合,以在每個像素處創建顏色值,並且權重在輸出的空間范圍內是均勻的。

Q0ZLH1.md.png

(圖3 (左)GAN生成器的最后一層通過卷積網絡將多層深度的合成RGB像素值,但是輸出空間的范圍是被限制的。(中間)引用[7]中用於面部合成的權重,將16深度層合成RGB像素值。(右)相比之下,實際攝像機的濾色器矩陣的光譜響應是與攝像機之間存在差異的,但是其結構與GAN所獲取權重是完全不同的)

    當攝像機傳感器上的濾色鏡陣列將可見光譜轉換為RGB值時,光譜響應函數表示不同波長的光的“加權”。 光譜響應函數因攝像機而異,但受以下幾個約束:

  1. 為了允許飽和並消除串擾,紅色,綠色和藍色的光譜響應函數具有有限的重疊。
  2. 由於傳感器對通過濾色陣列的光子計數,因此光譜響應函數必須為非負

    這兩個約束都不適合GAN生成器生成圖像,生成器不需要計算光子。

   生成器中通過允許負權重,即使為不同通道學習的權重之間存在明顯的重疊,也可能導致飽和。

    在圖三中,(中間)引用[7]中學習到的用於合成人臉圖像的16個權重深度層,它們在RGB三個顏色通道中有一個共同的峰值,並且在幾個非峰值處也相關。相比之下,采用照相機拍攝的右圖(顯示兩個不同佳能的相機),他們的每個通道都具有不同的峰值波長,並且靈敏度重疊的相對較少。


3.2. Normalization

    GAN網絡生成器的另一個常見的操作就是歸一化,其目的是能夠讓訓練中得到收斂。與彩色圖像形成一樣,歸一化的方法在每個GAN網絡也是不一樣的。

    在引用[7]中,在卷積層之后逐像素應用歸一化,以便每個像素處的深度的矢量值具有固定的大小,即

Q0ZTc4.png

其中,a是未歸一化的特征圖,b是逐個像素歸一化的結果,索引x和y表示像素在空間的位置,索引j和c表示特征圖中的深度位置,N表示特征圖的數量,e = 10^-8。

    在引用[16]中,歸一化應用於各個“深度”平面,即

Q0Z7jJ.png

Q0ZqBR.png

其中,b和a分別是歸一化和非歸一化的特征圖,x和y分別指定像素空間的位置,c表示深度通道,n索引批處理的序號,β和γ由訓練中學得,以限制特征圖深度平面內的均值和方差。

    無論是否逐層對像素進行歸一化,這兩步驟都是在單位間隔中具有相對均勻的分布,然后這些有規律的值轉換成RGB值。但是,在基於相機的成像中,強度值沒有很好的約束,取而代之的是,入射在攝像機傳感器上的照度值通常是有對數分布,因為需要高動態范圍(HDR)成像。

    HDR成像涉及捕獲多個圖像,這些圖像由一個或多個曝光點(二進制數量級)分隔開,例如 曝光1 / 15、1 / 30和1/60秒的圖像。 沒有HDR,相機圖像通常會具有飽和或曝光不足的區域,如圖4所示。但是,由於在生成器中應用了歸一化,因此GAN圖像缺少這些區域。(關於曝光度可以看這篇文章

Q0ZjN6.md.png

(左右為真實圖片,中間為GAN生成的圖片,左圖是曝光不足的區域,右圖是曝光過度的區域,中間GAN生成的圖片即使背景為白色也有缺少飽和度區域)


4.Detection Methods

    給定相對較少的訓練數據集,有必要使用預先訓練的模型(在適用的情況下)或使用可以使用手頭數據進行訓練的低維特征。

4.1. Color Image Forensics

    直觀上講,將深度層映射到圖3(中心)所示的RGB顏色的權重之間的重疊應該表現為給定像素的顏色通道之間具有較高相關性,而不是具有類似於圖3(右)所示佳能照相機曲線的光譜靈敏度的真是相機中的相關性。

    為了評估這個問題,我們使用標准rg色度空間,其中

Q0Zv4K.png

    我們希望GAN圖像在該顏色空間中,有比正常相關性更高的值。但是由於顏色轉換(引用7)獨立的應用與每個像素,因此相關性將不具有空間成分。為了評估該方法的有效性,我們采用了引用[1]的方法,使用了二元直方圖(bivariate histograms)進行取證。在引用[1]中,作者證明了通過建立強度噪聲直方圖(INH)可以將強度和噪聲之間的像素級統計關系用於檢測焦點操縱,該強度直方圖由類似於VGG的深層網絡進行分類。在我們的實驗中,r和g色度坐標充當兩個變量,並使用INH網絡將將這些直方圖分類為GAN圖像和相機圖像。

    我們使用了來自引用[1]INH的預訓練網絡,我們使用引用[7]生成的GAN圖像集和GAN訓練中使用的一組照相機圖像的r-g直方圖對分類器進行微調。


4.2. Saturation-based Forensics

    對於取證,假設是通過生成器的歸一化步驟來抑制飽和和曝光不足的頻率。這也暗示這一個簡單的GAN圖像檢測器,我們可以單純檢測每個圖像中飽和和曝光像素的頻率。具體的來說,對於曝光過度的像素,我們測量了一組特征

Q0Zz9O.png

    這些功能由線性支持向量機(SVM)進行分類,並使用Matlab的Fitcsvm函數進行訓練。訓練數據集包括1387個GAN生成圖像的特征(從GAN在[7]中創建的30個LSUN [17]圖像類別中隨機抽樣)以及來自ImageNet數據集的真實攝像機圖像。


5. Evaluation

    使用了兩個基准數據庫(US National Institute of Standards and Technology’s Media Forensics Challenge 2018),分布為

  • GAN Crop images represent smaller image region which are either entirely GAN-generated or not.
  • GAN Full images are mostly camera images, but some faces have been replaced by a GAN-generated face,similar to deep fakes.

    對於這兩個數據集,即使GAN Full圖像在人臉周圍具有較小的可操縱區域,我們也會在整個圖像上計算特征(直方圖或飽和度計數特征)。 按照慣例,我們通過Receiver Operator Characteristic (ROC)曲線展示了檢測器的性能,該曲線顯示了根據每個分類器輸出的連續變化得分所使用的判定閾值,確定的真實檢測率和錯誤報率。 在ROC曲線中,隨機分類器的性能為對角線。 我們還總結了ROC及其曲線下面積(AUC),對於隨機檢測器,該值為0.5;對於完美檢測器,該值為1。


5.1.Saturation Statistics

    圖5顯示了我們的SVM在過度曝光特性\(f^o\)下訓練的ROC曲線。 對於這兩個數據集,其性能明顯優於隨機檢測器(也就是對角線所對應的假象的檢測器)。 顯然,該方法在檢測完全GAN生成的圖像方面做得更好,可以產生0.7 AUC。 部分原因是為了更好地匹配訓練中使用的圖像,但是測量飽和像素比例的要素將被GAN Full圖像中的非GAN區域進一步稀釋。 盡管如此,該方法仍在GAN Full圖像集上產生可觀的ROC和0.61 AUC。

Q0eS3D.md.png

    有趣的是,如圖6所示,當為SVM提供由曝光不足和曝光過的像素頻率(即\(f^u\)\(f^o\))組成的特征向量時,該方法的性能會降低。 AUC從0.70降低到0.67,在誤報率為0.5的情況下,其正確檢測率明顯較低。 盡管目前尚不清楚為什么曝光不足的特征比曝光過度的像素頻率的預測能力低,但一種假設是[7]中的激活線性整流單元(ReLU)的形狀不對稱。 就是說,SVM本來可以學會忽略\(f^u\)的其他功能,但不能從提供的訓練數據中學習到。

Q0epge.md.png


5.2. Color Image Forensics

    不幸的是,如圖7所示,來自彩色圖像取證的ROC曲線好於隨機。 在兩個數據集上的AUC分別為0.56和0.54時,沒有太多證據表明分類器從GAN生成的圖像和相機生成的圖像的顏色統計信息中學到了任何有用的信息。 造成這種情況的一個可能原因是,評估集中的某些相機圖像包含具有預訓練的INH網絡要檢測的焦點操作類型的圖像。 例如,圖4(右上方)顯示了一張圖片,其中左邊緣和上邊緣顯得模糊。 由於這些圖像是從一組名人臉部圖像中獲取的,因此可能是以INH考慮的一種方式對其進行了修飾。 這可能可以通過重新訓練整個網絡來解決,盡管這將需要比本實驗中使用的訓練數據更多的訓練數據。

Q0e9jH.md.png


6. Conclusion

    我們已經描述並評估了與GAN生成器網絡將特征表示轉換為紅色,綠色和藍色像素強度的方式有關的兩種不同取證方法的功效。 我們特別證明,通過使用獨立生成的數據集進行的實驗,基於曝光過度像素頻率的相對簡單的取證可以很好地區分GAN生成的圖像和相機圖像。 我們的方法可以很好地將GAN生成的圖像與自然圖像完全區分開,並且即使在GAN生成的臉部拼接成較大的相機圖像這一較困難的情況下,該方法仍然可以提供一些判別。 基於彩色圖像統計數據的第二個取證證明不如飽和度統計有用,但可能由於缺乏可用的訓練數據而受到限制。

    兩種取證都是在對生成器的架構進行全面分析的基礎上提出的,特別是它如何將多通道特征圖轉換為3通道彩色圖像。 我們表明,應用於特征的權重類似於濾色器陣列如何在可見光譜范圍內進行積分,但是它們使用的權重非常不同。 我們的飽和取證是基於這樣一個事實,即生成器包含歸一化,該歸一化限制了所生成強度的范圍,而自然場景的照射不存在這種限制。 我們通過針對多種生成器架構的通用操作想出了這些取證法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM