Author
一作: Ian Goodfellow 三作: Christian Szegedy
Abstract
之前認為對抗樣本對模型的欺騙性是因為模型的高度非線性和過擬合,本文證明了模型的易損性主要是因為模型的線性本質。而且本文提供了一個簡單且快速的方法產生對抗樣本,將產生的樣本用於對抗訓練可以提升模型的測試性能。
Introduction
在高維空間的線性行為已經足夠產生對抗樣本,這種觀點可以是我們設計一種簡單且快速的方法用以生成對抗樣本使得對抗訓練實用化(FGSM, Fast Gradient Sign Method)
我們發現對抗訓練可以提供額外的正則化。
非線性才能抵抗對抗干擾,長遠來看,我們設計更加強大的優化方法用以訓練更加非線性的模型來提高模型的對對抗樣本的抗性
Related Work
現在已經有人開始設計抵抗模型,但是還沒有任何一個模型保持在clean inputs上的高准確率的同時具有抵抗力
Linear explanation
the precision of an individual input feature is limited. 輸入的精度是有限的,比如說rgb圖像,每個像素是8bit, 精度就是1/255
所以分類器不可能對輸入x和 對抗樣本 x+delta 做出不同的相應,如果delta比精度還小
一個簡單的線性模型可以有對應的對抗樣本如果它的輸入有足夠多的維度
Linear Perturbation of Non-linear Models
0.07 = 1/128
Szegedy發現用對抗樣本和clean樣本混合進行訓練可以有正則的效果,這是不同於數據增廣的,數據增廣是產生的數據是有可能出現在測試集里的,而對抗樣本是不可能出現在測試集中的
這個方法提升的效果是比不上droupout的,
The generalization of adversarial examples across different models can be explained as a result of adversarial perturbations being highly aligned with the weight vectors of a model, and different models learning similar functions when trained to perform the same task.
另外,為了解釋為什么不同的分類器將對抗樣本誤分類到同一個類,作者假設目前的方法訓練神經網絡都類似於在同一個訓練集上學習的線性分類器。由於機器學習算法的泛化能力,所以線性分類器可以在訓練集的不同子集上訓練出大致相同的分類權重。底層分類權重的穩定性反過來又會導致對抗樣本中的穩定性。
模型融合對於對抗樣本的防御能力非常有限
RBF networks are resistant to adversarial examples
知乎: https://zhuanlan.zhihu.com/p/32784766
之后又有論文證明
Adversarial examples in the physical world Alexey Kurakin, Ian Goodfellow, Samy Bengio ICLR2017 workshop 證明真實數據在物理世界是存在的
未來的工作,就是希望不只是用打印的圖片作為對抗樣本,而是真是的物理世界中的object,已經希望研發出有效的防御系統