Defense-GAN——防御對抗樣本,本質上就是在用類似編碼解碼器(論文用了GAN)來進行表征學習,使得算法模型更健壯


2. Defense-GAN:Protecting Classifiers Against Adversarial Attacks Using Generative Models

本文[3]基於生成對抗網絡(GAN)提出了一種新的防御機制:Defense-GAN。這是一個這是一個利用生成模型的表達能力來保護深度神經網絡免受對抗攻擊的新框架。 GAN大家應該比較熟悉,因為在前面,我也講過一篇基於GAN的防御方法。那種方法與本文中的方法有相似之處,也有不同之處,后面會對這兩種方法比較分析。作者基於GAN來進行防御,是希望Defense-GAN經過訓練構,可以模擬未受干擾圖像的分布,然后在輸入對抗樣本時,會生成一個該對抗樣本的滿足干凈樣本分布的近似樣本,然后再將該樣本輸入到分類器進行分類,這也意味着本文提出的方法可以與任何分類模型一起使用,並且不修改分類器結構或訓練過程。它還可以用作抵御任何攻擊的防御,因為它不會對生成對抗樣本的攻擊進行任何假設。這也是作者提出該方法的一個動機,因為目前的一些方法都有局限性,因為大多數方法對白盒攻擊或黑盒攻擊有效,但不是兩者都有效。此外,其中一些防御設計時考慮了特定的攻擊方式,並且無法有效抵御新的攻擊。

我們來看看,具體的方法是怎樣的。這里就不再介紹GAN的基礎知識了,前面那篇文章已經講的比較清楚了。不過有一點要說明,這里采用的生成對抗網絡不是最原始的那個模型,而是改進過的WGAN,因為GAN的訓練不穩定是一個眾所周知的問題,所以為了能有更好的成功率,本文采用了經過改善的模型,訓練更加穩定一些。

下圖是模型的結構示意圖,如圖1所示。首先利用隨機噪聲生成器生成一組隨機噪聲向量,然后將這組隨機噪聲和干凈樣本輸入到GAN里面,進行訓練,直到生成器能夠利用隨機噪聲生成滿足干凈樣本的分布的圖像,然后以噪聲向量個數為循環變量進行循環訓練,直到所有的噪聲向量都能通過生成器生成符合要求的圖像。然后選取其中表現最好的留下來。

訓練目標的數學描述如下式

生成器的訓練過程如下圖所示

我們來分析對比一下,本方法和前面講到過的APE-GAN方法的異同。兩種方法,都是以GAN(WGAN)為基礎,以利用生成器重構對抗樣本為目的,來實現防御。但是兩者的訓練過程不同,APE-GAN是將干凈樣本和對抗樣本分別輸入判別器D和生成器G進行訓練,而Defense-GAN在訓練的時候並沒有用到對抗樣本,而是采用隨機噪聲輸入,這也是一開始訓練GAN所采用的輸入,但是這里采用了多組噪聲輸入,進行循環訓練。最大的不同,是一種用到了對抗樣本進行訓練,另一種沒有用到。

方法的原理大概就是這些,接下來看一些實驗。

作者在實驗中設置了三種威脅級別,其中包括常見的白盒設置和黑盒設置,還設置了一種更強的白盒攻擊,這種更強的白盒攻擊的想法其實就是在使用攻擊方法生成對抗樣本之前,先向原始樣本添加一個小的隨機噪聲,再將這個加了噪聲后的樣本作為生成對抗樣本的輸入樣本,以FGSM為例,如下

本文主要使用的攻擊方法包括FGSM和C&W兩種。

數據集為MNIST手寫數字數據集和Fashion-MNIST(F-MNIST)時尚服裝數據集,兩個數據集均包含60,000個訓練圖像和10,000個測試圖像。將訓練圖像分成50,000個圖像的訓練集,包含10,000個圖像的驗證集。對於白盒攻擊,測試集保持不變(10,000個樣本)。對於黑盒攻擊,測試集分出一小組150個樣本,用於替代模型訓練,其余的9,850個樣本用於測試不同的方法。

來看實驗結果,首先來看黑盒設置下的結果。

表中結果表明,Defense-GAN對兩個數據集來說都減少了黑盒攻擊的影響,提升了准確率。

表中的Defense-GAN-Rec和Defense-GAN-Orig表示的是用生成器生成的新的樣本還是用原始樣本對分類器進行訓練,在GAN訓練良好的理想情況下,應該是能達到同樣的效果的。實驗結果表現地幾乎如此。另外,這里的Defense-GAN的參數(L和R)設置一樣,后面作者也進行了參數的影響實驗。實驗結果如下

如圖所示,增加R效果非常明顯,這是由於MSE的非凸性質,增加R能夠采樣不同的局部最小值。而對FGSM攻擊來說,L並不是越大越好,分類性能在某個L值之后會降低,這是因為G和D迭代次數太多,因此保留了一些對抗噪聲分量。

另外,Defense-GAN還可以用來進行攻擊檢測,這是針對那些經過生成器重構以后仍然不是很符合原始數據分布的那些對抗樣本,設置閾值,對這些樣本進行檢測,假設檢驗條件為

下圖顯示了不同Defense-GAN參數的接收器操作特性(ROC)曲線以及曲線下面積(AUC)度量的實驗結果。

結果表明,這種攻擊檢測策略是有效的,特別是當參數L和R很大時。

最后來看白盒攻擊的防御結果。

結果表明,Defense-GAN明顯優於其他兩個防御。甚至讓對抗攻擊者訪問z的隨機初始化。但是,這與當攻擊者不知道初始化時,性能沒有太大變化。

最后總結一下。在本文中,作者提出了Defense-GAN,一種利用GAN來增強分類模型對黑盒和白盒對抗性攻擊的魯棒性的新型防御策略。我們的方法不假設特定的攻擊模型,並且被證明對最常見的攻擊策略有效。我們憑經驗表明,Defense-GAN始終為兩個基准計算機視覺數據集提供足夠的防御,而其他方法在至少一種類型的攻擊中存在許多缺點。

在這里,有個問題要注意。Defense-GAN的成功依賴於GAN的表現力和生成力。然而,訓練GAN仍然是一項具有挑戰性的任務,也是一個活躍的研究領域,如果GAN沒有得到適當的訓練和調整,則Defense-GAN的性能將受到原始樣本和對抗樣本的影響。此外,超參數L和R的選擇對於防御的有效性也是至關重要的,並且在不知道攻擊的情況下調整它們可能是具有挑戰性的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM