參考自:
https://blog.csdn.net/qq_16234613/article/details/79679393
定義
深度模型具有良好的泛化能力同時,也具有極高脆弱性。以分類為例:只需要通過故意添加細微的干擾所形成的輸入樣本(對抗樣本),模型以高置信度給出了一個錯誤的輸出。
當然這問題不僅出現在深度模型中,在其他機器學習模型也存在。“對抗樣本”是安全方面非常好的一個議題,因為它代表了AI安全領域里的一種具體的問題。 
如上樣本x的label為熊貓,在對x添加部分干擾后,在人眼中仍然分為熊貓,但對深度模型,卻將其錯分為長臂猿,且給出了高達99.3%的置信度。
原因
很多人認為是模型的高度非線性導致的該問題。但《EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES》解釋恰恰由於其線性本身導致的。
以y = W^T * X舉例(W是權重,X是輸入)。如果X’ = X + t,t為干擾,W^T * X’ = W^T * X + W^T * t,也就是多出一個 W^T * t項,W和t維數很大時,即使很小擾動,累加起來也很可觀。 
以上圖二類器舉例:只需一個小小改變,分類器就從5%的置信度上升到88%的置信度。

上圖是識別鳥類模型,可以看到模型的模型神經元主要激活部分在鳥的頭部,而對於對抗樣本,模型會在類似於鳥頭部的產生激活,從而錯分。也就說明誤導不僅對於最后輸出,對底層的特征提取就開始了。一定程度上說明由於模型關注點只在於鳥頭部,而對整體特征關注不足,導致容易受到局部視野的影響(是否由於卷積核過小緣故?)。
攻擊分類
目前存在三種攻擊模型的方式:
White-box attack:白盒攻擊,對模型和訓練集完全了解
Black-box attack:黑盒攻擊:對模型不了解,對訓練集不了解或了解很少
Real-word attack:在真實世界攻擊。如將對抗樣本打印出來,用手機拍照識別。
targeted attack:使得圖像都被錯分到給定類別上。
non-target attack:事先不知道需要攻擊的網絡細節,也不指定預測的類別,生成對抗樣本來欺騙防守方的網絡。
攻擊方法
基於梯度的方法:
使用梯度下降來生成對抗樣本。
Fast Gradient Sign Method(FGSM,快速梯度法):給定一張圖像,輸入到神經網絡,得到輸出結果,使用梯度下降法修改原圖使得預測結果變差。
Iterative FGSM(迭代梯度法):多次使用FGSM。
Iterative FGSM with Momentum(動量迭代梯度法):添加了momentum。
基於優化的方法:
使用精心設計的metrics來生成對抗樣本。
防御方法
當放大圖像時人眼還是能看到的觀察到對抗樣本的區別。
圖像去噪:
廖方舟使用傳統方法(中值濾波等)和深度網絡模型U-Net試圖使用去燥方法解決問題(PGD Pixel Guided Denoiser)。效果不佳,雖然絕大部分噪聲被消除了,但是並沒有增加分類准確率。他們研究將對抗樣本和去噪后的圖像輸入到網絡中,計算網絡每一層的特征的距離。發現如果只是普通的噪聲,比如高斯噪聲,這些噪聲的影響會隨着網絡的加深而逐漸變小;但是對於對抗樣本的噪聲,這些噪聲的影響會隨着網絡的加深而逐漸變大。這一趨勢在圖像經過基本的去噪后仍然存在。后來提出HGD(High-Level Representation Guided Denoiser)方法。
對抗訓練:生成對抗樣本訓練模型
其他
Deep neural networks are easily fooled, Nguyen et al, 2015
Practical black-box attacks against deep learning systems using adversarial examples, Papernot et al, 2016
Adversarial examples in the physical world, Goodfellow et al, 2017
Explaining and harnessing adversarial examples, Goodfellow et al, 2015
Distillation as a defense to adversarial perturbations against deep neural networks, Papernot et al., 2016
Vulnerability of deep reinforcement learning to policy induction attacks, Behzadan & Munir, 2017
Adversarial attacks on neural network policies, Huang et al. 2017
論文及PPT下載鏈接:https://pan.baidu.com/s/1i5Qszx7,密碼:2qc9
