ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD


Alexey Kurakin, Ian J. Goodfellow, Samy Bengio, ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD

有很多種方法能夠生成對抗樣本(adversarial samples), 但是真實世界中是否存在這樣的對抗樣本呢?

主要內容

least likely class adv.

假設\(X\)為圖像(各元素取值為\([0,255]\)), \(y_{true}\)為其標簽, \(f(X)\)為一模型, 其輸出是一個概率向量, 定義

\[y_{LL}:=\arg \min_i \{f(X)_i\}, \]

故本文的生成adversarial samples的方法是最小化

\[J(X,y_{LL}):=-\log f(X)_{y_{LL}}, \]

\[X_0^{adv}=X,\quad X_{N+1}^{adv}=Clip_{X,\epsilon} \{X_N^{adv} - \alpha \mathrm{sign}(X_N^{adv},y_{LL})\}, \]

其中

\[Clip_{X,\epsilon}(X'):=\min \{ 255,X+\epsilon, \max\{0,X-\epsilon, X'\} \}, \]

即使得\(X'\)落入\([0,255]\)內且, \(\|X-X'\|_{\infty} \le \epsilon\).

實驗1 l.l.c. adv.的效用

對l.l.c. adv. 和 fgsm, ifgsm進行了比較
在這里插入圖片描述

實驗二

為了探究真實世界是否也存在這樣的對抗樣本, 作者將圖片進行如下操作:

  1. 打印 ( a )
  2. 用手機將打印的照片拍照 ( b )
  3. 對照片進行裁剪找出所需的部分 ( c )

在這里插入圖片描述

可以把這種操作看成一個變換\(T:X \rightarrow T(X)\), 如果真實世界中也存在對抗樣本, 那么原本的adversarial samples 在經過這個變換之后很有可能也具有對抗的性質, 事實上, 實驗顯示的確, 雖然其對抗的程度有些許下降.

作者構建了一個指標(重構率)來衡量:
在這里插入圖片描述
其中
在這里插入圖片描述
\(\overline{C(X,y)}=1-C(X,y)\).

\(d\)表示經過變換\(T\)后, adversarial samples 變成普通樣本(即不被誤判)的比例, 實驗顯示, 在實驗一中表現出色的l.l.c. adv., \(d\)反而比較高, 作者猜測這是因為這個方法產生的擾動比較精細, 經過\(T\)變換后, 這部分擾動就容易被抵消.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM