出處 : 2019 CVPRW
摘要 : 基於神經網絡的方法是通過利用篡改和非篡改區域間的差異來完成拼接篡改檢測。
本文提出一個端到端的 image essence attribute segmentation 網絡:RRU-net ,即環形殘差U-net。
核心思想是強化CNN的學習方式。
受到大腦recall 和 consolidation 機制的啟發,作者利用殘差傳播 recall 輸入特征來解決gradient degradation 梯度退化問題,利用殘差反饋 consolidate 輸入特征使篡改區域和非篡改區域間的差異更加明顯
數據集 CASIA [24] and COLUMB [8]
實驗環境 a computer with Intel Xeon E5-2603 v4 CPU and NVIDIA GTX TITAN X GPU.
metrics precision 、recall 、f-score
1 背景
傳統的基於特征提取的方法:
有一種基於 image essence attribute 檢測的方法,問題是如果拼接篡改后做了一些隱蔽處理(如整體模糊操作),這個方法會失敗。
基於CNN的檢測方法:
輸入 image patch,可能會丟失 the contextual spatial information。
隨着網絡加深,梯度退化問題會使得特征的 discrimination 辨識度弱化,可能造成失敗
U-net: 能夠提取一些shallow discriminative features,只利用了u-net 的兩邊
ResNet: 為解決梯度退化問題而提出
2 網絡結構
本文結構
-
是端到端的圖像本質屬性分割網絡
-
無需預處理后處理,直接定位篡改區域
-
解決梯度退化問題
-
更好地利用了上下文空間信息
residual propagation
解決梯度退化問題,圖2 是示意圖,包含兩個卷積層(稀疏卷積+relu)和殘差傳播
公式2 ,輸入 x ,輸出\(y_f\) ,\(W_i\) 是 i 層的權重,\(F(x,{W_i})\) 表示待學習的殘差映射
其中 ,\(\sigma\) 表示 relu 。為簡化表達,刪去bias
殘差傳播類似於人腦的recall機制。當我們學習更多的新知識時,我們可能會忘記以前的知識,所以我們需要recall機制來幫助我們喚起那些以前模糊的記憶。
Residual Feedback
[36]通過將篡改圖像通過SRM濾波層來疊加額外的噪聲屬性差異,增強檢測效果。
但SRM 是一種手動選擇方法,只適用於RGB圖像篡改檢測。當篡改區域和非篡改區域來自同一相機時,由於噪聲屬性相同,SRM方法表現不好
本文提出 residual feedback,強化圖像本質屬性的差異,不只局限於幾個特定的圖像屬性。 根據[9],設計了一個簡單有效的attention機制,加在residual feedback,給輸入的辨識度高的特征分配更多注意力。attention機制采用帶有sigmoid 激活函數的簡單 gating 門控機制,學習有辨識度的特征通道之間的非線性相互作用,避免特征信息的擴散。我們將sigmoid激活得到的響應值疊加在輸入信息上,放大未篡改區域和篡改區域的圖像本質屬性差異。
如圖3 和公式 3
x 是輸入,\(y_f\) 是公式 2 定義的輸出,\(y_b\) 是增強的輸入,G 是線性函數用於改變\(y_f\) 的維度,s 是 sigmoid 函數
residual feedback 類似人腦的 consolidation 機制,我們需要鞏固我們已經學過的知識,獲得新的特征理解。如圖1 c ,通過殘差反饋,篡改區域放大到全局最大響應值
還有兩個影響:區別特征的強化可以看作是對負面標簽特征的壓制,網絡在訓練過程中的收斂速度更快。
RRU 網絡結構
如圖5
環形殘差結構保證了在網絡層間提取特征時,對圖像本質屬性特征的識別更加明顯
3 實驗
數據集
CASIA :拼接的篡改區域是小而精細的對象
COLUMB:拼接篡改區域是一些簡單的、大的、無意義的區域
把訓練集、驗證集尺寸調整為384×256,數據增強采用隨機高斯噪聲,JPRG壓縮,隨機翻轉,使數據集一變四,所有實驗數據列在表1
augmented splicing 代表 2860 增強的數據集+715 簡單拼接數據集
在 CASIA original 按 715:35:100 設置訓練、驗證、測試集
在 COLUMB original 按 125:10:44 設置訓練、驗證、測試集
總共使用 17038 個圖像
evaluation metrics
對比方法
3個傳統特征提取檢測方法: 借用[32]的結果
DCT [30],DCT 系數直方圖不一致檢測方法
CFA [5],顏色濾波器陣列(CFA)插值模式中的干擾被建模為高斯分布的混合,以檢測被篡改的區域
NOI [18] ,利用小波變換對拼接區域進行檢測,濾波提取局部圖像的噪聲方差建模。
2個CNN檢測方法:
DFNet[15] 在CASIA 的結果並不好,因為DFNET利用64*64的patch輸入,CASIA的圖像太小了
C2R-Net [27]
2個語義分割方法:FCN [16] and DeepLab v3 [2]
還有 UNET 和 residual UNET(沒有residual feedback)
結果
圖6,表2,是在plain splicing forgery的結果
JPEG壓縮結果
噪聲 結果
image level 結果