@article{ilyas2019adversarial,
title={Adversarial Examples Are Not Bugs, They Are Features},
author={Ilyas, Andrew and Santurkar, Shibani and Tsipras, Dimitris and Engstrom, Logan and Tran, Brandon and Madry, Aleksander},
pages={125--136},
year={2019}}
概
作者認為, 標准訓練方法, 由於既能學到穩定的特征和不穩定的特征, 而導致模型不穩定. 作者通過將數據集分解成穩定和非穩定數據來驗證其猜想, 並利用高斯分布作為一特例舉例.
主要內容
本文從二分類模型入手.
符號說明及部分定義
\((x,y) \in \mathcal{X} \times \{\pm 1\}\): 樣本和標簽;
\(C:\mathcal{X} \rightarrow \{\pm 1\}\): 分類器;
\(f:\mathcal{X} \rightarrow \mathbb{R}\) : 特征;
\(\mathcal{F}=\{f\}\): 特征集合;
注: 假設\(\mathbb{E}_{(x,y) \sim \mathcal{D}}[f(x)]=0\), \(\mathbb{E}_{(x,y) \sim \mathcal{D}}[f(x)^2]=1\).
注: 在深度學習中, \(C\)可以理解為
\(\rho\)可用特征
滿足
並記\(\rho_{\mathcal{D}}(f)\)為最大的\(\rho\).
\(\gamma\)穩定可用特征
若\(f\) \(\rho\)可用, 且對於給定的攝動集合\(\Delta\)
則\(f\) 為\(\gamma\)穩定可用特征.
可用不穩定特征
即對於\(f\), \(\rho_{\mathcal{D}}(f) >0\), 但是不存在\(\gamma >0\)使得(2)式滿足.
標准(standard)訓練
即最小化期望損失(在實際中為經驗風險):
\(\mathcal{L}_{\theta}\)的取法多樣, 比如
穩定(robust)訓練
分離出穩定數據
何為穩定數據? 即在此數據上, 利用標准的訓練方式訓練得到的模型能夠在一定程度上免疫攻擊. 如果能從普通的數據中分離出穩定數據和不穩定數據, 說明上面定義的穩定和非穩特征的存在性.
首先假設\(C\)是一個穩定模型(可通過PGD訓練近似生成), 則\(\hat{D}_{R}\)應當滿足
為了滿足第一條, 需要
其中\(g\)為將\(x\)映射到表示層(representation layer)的映射?
為了滿足第二條, 在選擇\(x_r\)的初始值的時候, 從\(\mathcal{D}\)中隨機采樣\(x'\), 以保證\(x'\)和\(y\)沒有關系, 則\(\mathbb{E}_{(x, y) \sim D}[f(x') \cdot y] = \mathbb{E}_{(x, y) \sim D}[f(x')] \cdot \mathbb{E}_{(x, y) \sim D}[y] = 0\).

分離出不穩定數據
分離出不穩定數據所需要的是標准的模型\(C\), 且
其中\(L_C\)是認為給定的損失函數(比如:交叉熵), 而\(t\)是通過某種方式給定的標簽, 且\(C(x) = y\), \(C(x')=t\).
既然攝動很小, 且\(x_{adv}\)的標簽為\(t\), 所以此時\(F_C\)中既有穩定特征, 又有不穩定特征.
\(t\)隨機選取
此時穩定性特征和\(t\)不相關, 故其可用度應當為0, 而不穩定特征可用度大於0, 故
\(t\)選取依賴於\(y\)

比較重要的實驗
1

上面左圖從上到下分別是標准數據, 穩定數據和不穩定數據, 右圖進行了四組不同的實驗:
- 在標准數據上標准訓練並對其攻擊
- 在標准數據上穩定訓練並對其攻擊
- 在穩定數據上標准訓練並對其攻擊
- 在不穩定數據上標准訓練並對其攻擊
不難發現, 在穩定數據上標准訓練能夠一定程度上免疫攻擊, 而在不穩定數據上標准訓練, 能夠逼近在標准數據上標准訓練的結果, 而其對攻擊的免疫程度也正如我們所想的一塌糊塗.
這些實驗可以說明, 穩定特征和不穩定特征是存在的, 標准訓練由於最大限度地追求准確度, 所以其對二類特征一視同仁, 全盤接受, 這導致了不穩定.
遷移性
adversarial attacks的一個很明顯的特征便是遷移性, 穩定特征和不穩定特征能夠解釋這一點, 既然數據相同, 不同結構的網絡會從中提取出類似的不穩定特征.

利用從ResNet-50中提取的不穩定數據, 提供給別的模型訓練, 可以驗證遷移性.
理論分析
作者通過一個正態分布的例子來告訴我們穩定特征和不穩定特征的存在和作用.
注: 下面涉及到的\(\Sigma, \Sigma_*\)均為對角陣.

標准訓練的目標是通過極大似然估計\(\Theta=(\mu, \Sigma)\),

其中\(\ell\)為密度函數的\(-\log\).
於是,
注: 無特別約束(11)的最優解即位\(\mu_*, \Sigma_*\).
穩定訓練的目標是

則有以下結論
定理1

注: \(\mathcal{L}(\Theta)=\mathbb{E}_{(x, y) \sim \mathcal{D}}[\ell(x, y,\mu, \Sigma)]\), \(\mathcal{L}_{adv}(\Theta)\)的定義是類似的.
定理2
注意, 此時考慮的問題與上面的不同(定理3同定理2), 為


定理3

定理的證明, 這里不貼了, 其中有一個引理的證明很有趣.
