The Limitations of Deep Learning in Adversarial Settings


Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z. Berkay Celik, Ananthram Swami, The Limitations of Deep Learning in Adversarial Settings.

利用Jacobian矩陣構造adversarial samples,計算量比較大.

主要內容

目標:

\[\tag{1} \mathop{\arg \min} \limits_{\delta_X} \|\delta_X\|, \mathbf{s.t.} \: F(X+\delta_X)=Y^*. \]

簡而言之, 在原圖像\(X\)上加一個擾動\(\delta_X\), 使得\(F\)關於\(X+\delta_X\)的預測為\(Y^*\)而非\(Y\).

\(Y \in \mathbb{R}^M\)是一個\(M\)維的向量, 類別由下式確定

\[label(X)=\mathop{\arg \min} \limits_{j} F_j(X). \]

\(F(X)=Y\)關於\(X\)的Jacobian矩陣為

\[[\frac{\partial F_j(X)}{\partial X_i}]_{i=1,\ldots,N,j=1,\ldots,M}, \]

注意, 這里作者把\(X\)看成一個\(N\)維向量(只是為了便於理解).

因為我們的目的是添加擾動\(\delta_X\), 使得\(X+\delta_X\)的標簽為我們指定的\(t\), 即我們希望

\[t=\mathop{\arg \min} \limits_{j} F_j(X+\delta_X). \]

作者希望改動部分元素, 即\(\|\delta_X\|_0\le \Upsilon\), 作者是構造了一個saliency_map來選擇合適的\(i\), 並在其上進行改動, 具體算法如下:

在這里插入圖片描述

saliency_map的構造之一是:

\[S(X,t)[i] = \{ \begin{array}{ll} 0, & if \: \frac{\partial{F_t(X)}}{\partial X_i} <0 \:or \: \sum_{j \not= t} \frac{\partial F_j(X)}{\partial X_i} >0, \\ \frac{\partial{F_t(X)}}{\partial X_i} |\sum_{j \not= t} \frac{\partial F_j(X)}{\partial X_i}|, & otherwise. \end{array} \]

可以很直觀的去理解, 改變標簽, 自然希望\(F_t(X)\)增大, 其余部分減少, 故 \(\frac{\partial{F_t(X)}}{\partial X_i} <0 \:or \: \sum_{j \not= t} \frac{\partial F_j(X)}{\partial X_i} >0\)所對應的\(X_i\)自然是不重要的, 其余的是重要的, 其重要性用\(\frac{\partial{F_t(X)}}{\partial X_i} |\sum_{j \not= t} \frac{\partial F_j(X)}{\partial X_i}|\)來表示.

alg2, alg3

作者順便提出了一個更加具體的算法, 應用於Mnist, max_iter 中的\(784\)即為圖片的大小\(28 \times 28\), \(\Upsilon=50\), 相當於圖片中\(50\%\)的像素發生了改變, 且這里采用了一種新的saliency_map, 其實質為尋找倆個指標\(p,q\)使得:
在這里插入圖片描述
其實際的操作流程根據算法3. \(\theta\)是每次改變元素的量.
在這里插入圖片描述

在這里插入圖片描述

一些有趣的實驗指標

Hardness measure

在這里插入圖片描述
在這里插入圖片描述
其中\(\epsilon(s,t,\tau)\)中, \(s\):圖片標簽, \(t\):目標標簽, \(\tau\):成功率, \(\epsilon\)為改變像素點的比例. (12)是(11)的一個梯形估計, \(\tau_k\)由選取不同的\(\Upsilon_k\)來確定, \(H(s, t)\)越大說明將類別s改變為t的難度越大.

Adversarial distance

在這里插入圖片描述
\(A(X,t)\)越大, 說明將圖片\(X\)的標簽變換至\(t\)的難度越大, 而一個模型的穩定性可以用下式衡量

\[\tag{14} R(F)=\min_{X,t} A(X,t). \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM