摘要 : 拼接檢測定位方法: 提出一個學習算法,在大型真實圖像數據集上訓練,算法使用 EXIF 元數據做監督信號,訓練模型去判斷圖像是不是自-連續的。這僅僅是尋找一個真正通用的視覺取證工具的漫長過程中的一步。
作者 :
出處 : ECCV 2018
數據集 columbia[41] carvalho[42] RT[43]
實驗環境 Training the EXIF-Consistency and Image-Consistency networks took approximately 4 weeks on 4 GPUs. Running the full self-consistency model took approximately 16 s per image
metrics mean average precision(mAP)、permuted-mAP、class-balanced IOU (cIOU)
1 Introduction
使用 EXIF 元數據做監督信號,訓練分類模型,決定一幅圖的 patches是不是由一個圖像流水線生成的。模型是自監督的,只在訓練中使用了真實圖像和他們的 EXIF 元數據。對每個EXIF標簽分別使用一對照片學習一個一致性分類器,並將得到的分類器組合在一起來估計新輸入圖像中patch對的自一致性
主要貢獻:
- 將圖像取證作為學習自一致性(一種異常檢測)中的違規檢測問題
- 提出攝影元數據作為學習自我一致性的自由而豐富的監督信號
- 將我們的自一致性模型應用於拼接的檢測和定位。我們還介紹了一個新的圖像拼接數據集,從互聯網上獲得,並實驗評估哪些攝影元數據是可預測的圖像。
3 Learning Photographic Self-consistency
模型預測兩個 patches 是否彼此一致。給定 \(P_i\) 和 \(P_j\),估計他們的 n 個元數據相同的概率\(x_1,x_2,x_3,...,x_n\),然后結合 n 個觀測值估計 patches 的整體一致性 \(c_{ij}\)
在評估階段,給模型輸入篡改圖像,衡量許多不同的patches間的一致性。盡管任何一對patch的一致性分數都是有噪聲的,但是將許多觀測數據聚集在一起,可以提供一個合理穩定的整體圖像自一致性估計。
3.1 Predicting EXIF Attribute Consistency
使用 siamese network 預測一對 128×128 的 patches 有相同 EXIF 屬性的概率,使用來自 flicker 的隨機40萬張圖像,在5萬多張圖片的所有 EXIF 屬性上預測(n=80)
siamese network 使用 shared resnet-50[37] sub-networks,每個生成4096維的向量,這些向量拼接在一起,通過有4096,2048,1024個單元的 4-層 MLP ,然后輸出
圖4是對模型有用的 EXIF 屬性
3.2 Post-processing Consistency
拼接區域會重新調整大小,邊緣光滑,圖像重新壓縮jpeg格式。如果網絡可以預測出patches是否是不同的后處理,那么這是有力的不一致證據。在訓練時,加了3個增強操作 re-JPEGing, Gaussian blur, and image resizing,一半時間對兩個patches加同一個操作,另一半時間加不同的操作。我們提出3個額外的分類任務(上述增強操作),讓模型預測一對patches是否是同一種參數增強,現在 n=83。
3.3 Combining Consistency Predictions
一對 patch i 和 j 的 EXIF 的一致性預測 83-維向量 X,評估整體一致性 \(c_{ij}=p_{\theta}(y|X)\) ,\(p_{\theta}\) 是有512個隱藏單元的2-層MLP。訓練網絡預測 i 和 j 是否來自同一訓練圖像(相同,y=1,不同,y=0)
3.4 Directly Predicting Image Consistency
另一種方法是訓練與3.1結構類似的網絡,直接預測這兩個補丁是否來自同一幅圖像。(Image-Consistency)
3.5 From Patch Consistency to Image Self-Consistency
給一副圖像,采樣450個patches。對於一個patch,可視化一個響應圖,響應圖是其與圖像中其他patch的一致性。為了提高每個響應圖的空間分辨率,我們對重疊patch的預測進行平均。如果存在拼接,那么圖像未被篡改部分的大部分patch與被篡改區域的patch的一致性較低。
要為輸入圖像生成單個響應映射,我們需要在所有補丁響應映射中找到最一致的模式。使用 mean shift[39]。合並的響應圖叫做 a consistensy map。也可以通過帶normalized cuts[40] 的仿射矩陣可視化篡改區域
檢測使用了深度網,定位用的傳統方法吧。
為了幫助理解不同的EXIF屬性在一致性預測方面的差異,我們為示例圖像的每個標記創建了響應映射(圖7)。
雖然單個標記提供了一個有噪聲的一致性信號,但是合並的響應映射精確地定位了拼接區域。
4 Results
4.1 Benchmarks
數據集
columbia[41]:180個相關的簡單拼接
carvalho[42]:94幅圖像
Realistic Tampering[43]:220圖像,拼接后還有后處理操作。這個數據集中也有復制粘貼圖像
in-the-wild:本文提出的新數據集,從網站收集的201個圖像
reddit photoshop battles[44]:是一個用戶創造和分享圖片的在線社區
the scene completion data from Hays and Efros [1]:其中包括inpainting結果、mask 和總共 55 幅圖像的源圖像
metric
mean average precision(mAP):
例如:假設有兩個主題,主題1有4個相關網頁,主題2有5個相關網頁。某系統對於主題1檢索出4個相關網頁,其rank分別為1, 2, 4, 7;對於主題2檢索出3個相關網頁,其rank分別為1,3,5。對於主題1,平均准確率為(1/1+2/2+3/4+4/7)/4=0.83。對於主題 2,平均准確率為(1/1+2/3+3/5+0+0)/3=0.7555。則MAP= (0.83+0.7555)/2=0.79。”
MRR是把標准答案在被評價系統給出結果中的排序取倒數作為它的准確度,再對所有的問題取平均。
permuted-mAP
class-balanced IOU (cIOU):Intersection over Union per class (用於測量真實和預測之間的相關度,相關度越高,該值越高)
對比方法:
Color Filter Array (CFA) [45]:檢測色彩模式人工偽影
JPEG DCT [46]:檢測 JPEG 系數的不一致
Noise Variance (NOI) [47]:使用小波檢測異常噪聲
以上方法的數據來自[48]
E-MFCN [17]:使用拼接圖象和mask訓練,使用FCN預測拼接mask和邊界
為評估新數據集,使用前3數據集訓練了一個標准FCN分類拼接像素
最后,我們提出了self-consistency 模型的兩種變體:
1是Camera-Classification,直接預測是哪個相機模型產生了給定patch。我們通過從測試圖像中采樣圖像patch,並將最頻繁預測的相機指定為自然圖像,其他的都指定為拼接區域,來評估相機分類模型的輸出。當每個patch預測的相機模型一致時,我們認為圖像是可以被篡改的。
2是Image-Consistency,直接預測兩個patch是不是來自同一幅圖像(Sect. 3.4)。如果一幅圖像的組成補丁被預測來自不同的圖像,那么它就被認為可能被篡改了。這些模型的評估與我們的完全EXIF-Consistency模型執行的方式相同
使用在imageNet上預訓練的ResNet50,batch size=128,adam learning rate of 10−4
4.3 Splice Detection
數據集:Columbia, Carvalho, and Realistic Tampering
表1是檢測結果,比監督學習FCN還要好
4.4 Splice Localization
表3 在全部的Columbia and Carvalho datasets數據集上評估
表2,本文模型在訓練不用篡改圖像的情況下還比使用篡改圖像的對比方法好
圖8 本文方法可視化
圖11 和其他方法的對比
圖10 失敗的圖像