Alexey Kurakin, Ian J. Goodfellow, Samy Bengio, ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
概
有很多種方法能夠生成對抗樣本(adversarial samples), 但是真實世界中是否存在這樣的對抗樣本呢?
主要內容
least likely class adv.
假設\(X\)為圖像(各元素取值為\([0,255]\)), \(y_{true}\)為其標簽, \(f(X)\)為一模型, 其輸出是一個概率向量, 定義
故本文的生成adversarial samples的方法是最小化
則
其中
即使得\(X'\)落入\([0,255]\)內且, \(\|X-X'\|_{\infty} \le \epsilon\).
實驗1 l.l.c. adv.的效用
對l.l.c. adv. 和 fgsm, ifgsm進行了比較
實驗二
為了探究真實世界是否也存在這樣的對抗樣本, 作者將圖片進行如下操作:
- 打印 ( a )
- 用手機將打印的照片拍照 ( b )
- 對照片進行裁剪找出所需的部分 ( c )
可以把這種操作看成一個變換\(T:X \rightarrow T(X)\), 如果真實世界中也存在對抗樣本, 那么原本的adversarial samples 在經過這個變換之后很有可能也具有對抗的性質, 事實上, 實驗顯示的確, 雖然其對抗的程度有些許下降.
作者構建了一個指標(重構率)來衡量:
其中
\(\overline{C(X,y)}=1-C(X,y)\).
\(d\)表示經過變換\(T\)后, adversarial samples 變成普通樣本(即不被誤判)的比例, 實驗顯示, 在實驗一中表現出色的l.l.c. adv., \(d\)反而比較高, 作者猜測這是因為這個方法產生的擾動比較精細, 經過\(T\)變換后, 這部分擾動就容易被抵消.