深度學習中的對抗攻擊和對抗防御


https://zhuanlan.zhihu.com/p/138462196

摘要:

在深度學習(deep leaming,DL)算法驅動的數據計算時代,確保算法的安全性和魯棒性至關重要。最近,研究者發現深度學習算法無法有效地處理對抗樣本。這些偽造的樣本對人類的判斷沒有太大影響,但會使深度學習模型輸出意想不到的結果。最近,在物理世界中成功實施的一系列對抗性攻擊證明了此問題是所有基於深度學習系統的安全隱患。因此有關對抗性攻擊和防御技術的研究引起了機器學習和安全領域研究者越來越多的關注。本文將介紹深度學習對抗攻擊技術的理論基礎、算法和應用。然后,討論了防御方法中的一些代表性研究成果。這些攻擊和防御機制可以為該領域的前沿研究提供參考。此外,文章進一步提出了一些開放性的技術挑戰,並希望讀者能夠從所提出的評述和討論中受益。

 

1 引言

計算能力的萬億倍增長使得深度學習(deep learning,DL)在處理各種機器學習(machine learning,ML)任務中得到廣泛應用,如圖像分類、自然語言處理和博弈論。然而研究者發現現有DL算法存在着嚴重的安全隱患:攻擊者可以通過給良性樣本添加特定噪聲而輕易地欺騙DL模型,並且通常不會被人發現。攻擊者利用人的視覺/聽覺無法感知的擾動,足以使正常訓練的模型輸出置信度很高的錯誤預測,研究者將這種現象叫做對抗攻擊,它被認為是在生產中部署DL模型之前的巨大障礙,因此激發了人們對對抗攻擊和防御研究的廣泛興趣。

根據威脅模型可以將現有的對抗性攻擊分為白盒、灰盒和黑盒攻擊。這3種模型之間的差異在於攻擊者了解的信息。在白盒攻擊的威脅模型中,假定攻擊者具有關於其目標模型的完整知識,包括模型體系結構和參數。因此攻擊者可以通過任何方式直接在目標模型上制作對抗性樣本。在灰盒威脅模型中,攻擊者了解的信息僅限於目標模型的結構和查詢訪問的權限。在黑盒威脅模型中,攻擊者只能依賴查詢訪問的返回結果來生成對抗樣本。在這些威脅模型的框架中,研究者開發了許多用於對抗樣本生成的攻擊算法,比如基於有限內存的BFGS(limited-memory Broyden-Fletcher-Goldfarb-Shan-no,L-BFGS)、快速梯度符號法(fast gradient sign method,FGSM)、基本迭代攻擊/投影梯度下降(ba-sic iterative attack/projected gradient descent,BIA/PGD、分布式對抗攻擊(distributionally adversarial attack,DAA)、Carlini和Wagner(C&W)攻擊、基於雅可比的顯著圖攻擊(Jacobian-based saliency map attack,JSMA以及DeepFool。盡管這些攻擊算法最初是在白盒威脅模型下設計的,但是由對抗樣本在模型之間的可傳遞性可知:它們同樣適用於灰盒威脅模型和黑盒威脅模型。本文將調查並總結對抗性攻擊和防御研究領域中最前沿的研究成果。此外,我們將根據目前最新的研究進展對這些攻擊和防御方式的有效性進行評述。

2 對抗攻擊

以下是文中部分攻擊方法的描述。

2.1 快速梯度符號法(FGSM)

Goodfellow等首先提出了一種有效的無目標攻擊方法,稱為快速梯度符號法(FGSM),該方法通過在良性樣本的L∞范數限制下生成對抗樣本,如圖1所示。FGSM是典型的一步攻擊算法,它沿着對抗性損失函數J(θ, x, y)的梯度方向(即符號)執行一步更新,以增加最陡峭方向上的損失。FGSM生成的對抗性樣本表示如下:

式中,ε 是擾動大小。通過降低J(θ, x, y′)的梯度(其中y′表示目標類別)可以將FGSM輕松地擴展為目標攻擊算法(targeted FGSM)。如果將交叉熵作為對抗損失,則此更新過程可以減少預測概率向量和目標概率向量之間的交叉熵。目標攻擊算法的梯度更新可以表示為:

此外,在良性樣本上先添加隨機擾動再執行FGSM可以提高FGSM生成對抗樣本的性能和多樣性。

2.2 基本迭代攻擊和投影梯度下降

Kurakin等提出了BIA方法,該方法通過將一個迭代優化器迭代優化多次來提高FGSM的性能。BIA以較小的步長執行FGSM,並將更新后的對抗樣本裁剪到有效范圍內,通過這樣的方式總共T次迭代,在第k次迭代中的梯度更新方式如下:

式中,αT ε。投影梯度下降(PGD)可以看作是BIA的廣義形式,這種方法沒有約束αT ε。為了約束對抗性擾動,PGD將每次迭代學習的對抗性樣本投影到良性樣本的ε- L∞鄰域中,從而使對抗性擾動值小於ε。其更新方式如下:

式中,Proj會將更新后的對抗樣本投影到ε- L∞鄰域和有效范圍內。

2.3 動量迭代攻擊(momentum iterative attack)

受動量優化器的啟發,Dong等提出將動量記憶集成到BIM的迭代過程中,並推導了一種新的迭代算法Momentum Iterative FGSM(MI-FGSM)。該方法通過以下方式迭代更新其對抗樣本:

式中,梯度gk+1通過gk+1 = μ·gk + Δx J(θ,xk',y)/|| Δx J(θ,xk',y)||1更新。文獻提出的方案是以一組集成模型為目標,在黑盒/灰盒設置下攻擊一個不可見的模型。其基本思想是考慮多個模型相對於輸入的梯度,並綜合確定一個梯度方向,這種攻擊方法生成的對抗樣本更可能轉移攻擊其他黑盒/灰盒模型。MI-FGSM與集成攻擊方案的結合在NIPS 2017無目標攻擊和度量攻擊競賽(黑盒設置)中獲得了第一名。

2.4 Carlini 和Wagner 攻擊

Carlini和Wagner提出了一組基於優化的對抗攻擊C&W,它們可以生成L0、L2和L∞范數限制下的對抗樣本CW0、CW2和CW∞。與L-BFGS類似,將優化目標函數表示為:

式中,δ 是對抗擾動;D(∙,∙)表示L0、L2或L∞距離度量;f(x +δ)是自定義的對抗損失,當且僅當DNN的預測為攻擊目標時才滿足f(x +δ)≤0。為了確保x +δ產生能有效的

圖像(即x +δ ∈ [0, 1]),引入了一個新變量來代替δ,如式(11)所示:

這樣,x +δ =1/2(tanh(k) + 1)在優化過程中始終位於[0, 1]中。除了在MNIST、CIFAR10和ImageNet的正常訓練DNN模型上獲得100%的攻擊成功率外,C&W攻擊還可以破壞防御性蒸餾模型,而這些模型可以使L-BFGS和Deepfool無法找到對抗性樣本。

 

2.5 通用對抗攻擊

上述所有攻擊都是針對良性樣本來精心設計對抗性擾動的。換句話說,對抗性擾動不會在良性樣本之間傳遞。因此一個自然的問題是:是否存在一種普遍的擾動會欺騙大多數良性樣本的網絡?在每次迭代中,對於當前擾動無法欺騙的良性樣本,將求解一個類似於L-BFGS的優化問題,以找到危害這些樣本所需的最小附加擾動。附加擾動將添加到當前擾動中。最終,擾動使大多數良性樣本欺騙了網絡。實驗表明,這種簡單的選代算法可以有效地攻擊深度神經網絡,如CaffeNet、GoogleNet、VGG和ResNet。出乎意料的是,這種可在不同樣本中傳遞的擾動同時可以應用到其他不同的模型中,例如,在VGG上制作的通用擾動在其他模型上也可以達到53%以上的欺騙率。

 

3 對抗防御

3.1 對抗訓練

對抗訓練是一種針對對抗樣本的直觀防御方法,該方法試圖通過利用對抗樣本進行訓練來提高神經網絡的魯棒性。從形式上講,這是一個Min-Max的游戲,可以表述為:

式中,J(θ, x′, y)是對抗損失函數;θ是網絡權重;x′是對抗輸入;y是標簽真值。D(x, x′)表示x和x′之間的某種距離度量。內部的最大化優化問題是找到最有效的對抗樣本,這可以通過精心設計的對抗攻擊實現,如FGSM和PGD。外部的最小化優化問題是損失函數最小化的標准訓練流程。最終的網絡應該能夠抵抗訓練階段用的生成對抗性樣本的對抗性攻擊。最近的研究表明:對抗性訓練是對抗性攻擊最有效的防御手段之一。主要是因為這種方法在幾個基准數據集上達到了最高的精度。因此在本節中,我們將詳細介紹過去幾年里表現最好的對抗訓練技術。

FGSM 對抗訓練:Goodfellow等首先提出用良性和FGSM生成的對抗樣本訓練神經網絡以增強網絡其魯棒性的方法。他們提出的對抗目標函數可以表達為:

式中,x +ϵsign( ΔxJ(θ, x, y))是良性樣本x根據FGSM方法生成的對抗樣本;c是用於平衡良性和對抗性樣本的准確性。文獻中的實驗表明,該網絡對於FGSM方法生成的對抗性樣本變得有些健壯。具體來說,在對抗訓練中對抗樣本的錯誤率從89.4%急劇下降至17.9%。盡管該方法對FGSM的攻擊有效,但是訓練后的模型仍然容易受到基於迭代/優化方式的對抗攻擊。因此許多研究進一步挖掘了具有更強對抗性攻擊(如BIA/PGD攻擊)的對抗性訓練。

 

3.2 隨機化

最近的許多防御措施都采用隨機化來減輕輸入/特征域中對抗性擾動的影響,因為從直覺上看,DNN總是對隨機擾動具有魯棒性。基於隨機化的防御方法試圖將對抗性效應隨機化為隨機性效應,當然這對大多數DNN而言都不是問題。在黑盒攻擊和灰盒攻擊的設置下,基於隨機化的防御獲得了不錯的性能,但是在白盒攻擊下,EoT方法能夠通過在攻擊過程中考慮隨機過程來破壞大多數防御方法。本節將詳細介紹幾種基於隨機化的代表性防御方式,並介紹其針對不同環境中各種防御的性能。

 

3.3 去噪

就減輕對抗性擾動/效果而言,降噪是一種非常簡單的方法。之前的工作指出了設計這種防御的兩個方向,包括輸入降噪和特征圖降噪。其中第一個方向試圖從輸入中部分或完全消除對抗性擾動,第二個方向是減輕對抗性擾動對DNN學習高級功能的影響。本節將詳細介紹這兩個方向上的幾種著名防御方法。

 

3.4 可證明式期伸

以上所有介紹的防御都是啟發式防御,這意味着這些防御的有效性只在實驗上得到驗證,而沒有在理論上得到證明。如果無法計算理論上的錯誤率,這些啟發式防御可能會被未來的新攻擊所打破。因此許多研究者致力於探索可證明的防御方法,在一類定義明確的攻擊下,這些方法始終能保持一定的准確性。本節將介紹幾種具有代表性的可證明的防御。

 

3.5 基於貝葉斯模型的防御

Liu等將貝葉斯神經網絡(Bayesian neural network,BNN)與對抗訓練相結合,從而學習在對抗攻擊下的最優模型的權重分布。具體來說,作者假設網絡中的所有權重都是隨機的,並使用BNN理論中常用的技術訓練網絡。通過對抗性訓練,這種隨機的BNN,與RSE和CIFAR10以及STL10和ImageNet143的常見的對抗性訓練相比,顯著提高了對抗魯棒性。Schott等建議基於貝葉斯模型對輸入數據的分類條件分布進行建模,並將新樣本分類為相應類別條件模型產生最高似然性的類別。他們將模型命名為Analysis by Synthesis model(ABS)。ABS被稱為MNIST數據集上針對L0、I2和L∞。攻擊的第一個健壯模型。ABS在抵抗L0和L2攻擊方面達到了最先進的性能,但在L∞的攻擊下其性能要比PGD對抗訓練的模型稍差。

 

4 討論

4.1 白盒與黑盒攻擊

從攻擊者的角度來看,白盒攻擊和黑盒攻擊的主要區別在於它們對目標模型的訪問權限。在白盒攻擊中,攻擊者可以訪問模型的結構和權重,以便他們可以通過文獻中的方法計算真實的模型梯度或近似梯度,此外攻擊者還可以根據防御方法和參數調整其攻擊方法。在這種情況下,以前引入的大多數啟發式防御實際上無法抵御這種強大的自適應攻擊者。在黑盒攻擊中,模型結構和權重不會被攻擊者知道,在這種情況下,為了使用上述基於梯度的攻擊算法,對手必須從有限的信息中推斷出模型的梯度。在沒有任何特定模型信息的情況下,對模型梯度的無偏估計就是對具有不同隨機種子的一組預訓練模型梯度的期望。文獻使用基於動量梯度的方法進行此梯度估計,並在NIPS2017挑戰賽(在黑盒設置下)中獲得第一名。Chen等研究了另一種黑盒攻擊方法,該方法可以向攻擊者授予額外的查詢訪問權限。因此如果給定精心設計的輸入,攻擊者可以從目標模型的輸出推斷出梯度。在這種設置下,可以應用零階方法來更好地估計模型梯度。但是此方法的缺點是需要進行大量的查詢操作,其查詢量與數據維度成比例。

 

4.2 對抗攻擊與防御研究趨勢之間的差異

對抗攻擊的研究趨勢主要包括兩個方向。第一個是設計更有效、更強大的攻擊用來評估新興的防御系統,這個方向的重要性很直觀,因為我們希望在潛在對手面前預先了解所有的風險。第二個是實現物理世界中的對抗攻擊。以前對該研究主題的主要疑問是那些對抗性攻擊是否會對物理世界形成真正的威脅。一些研究人員懷疑由於某些環境因素的影響,最初在數字空間中設計的對抗性攻擊將無效。Kurakin首先通過使用模型梯度相對於輸入的期望值並加上環境因素引起的隨機噪聲來實現物理世界中的對抗攻擊。Ekholt等進一步考慮了掩膜和制造誤差,從而實現了交通標志的對抗性擾動。最近Cao等成功生成的對抗目標可以用來欺騙基於激光雷達的檢測系統,這些都驗證了物理對抗樣本的存在。在防御方面,由於大多數啟發式防御都無法防御自適應白盒攻擊,因此研究者開始關注可證明的防御,這種防御是指無論攻擊者采用哪種攻擊方式,可證明防御都可以在一定程度下保證防御的性能。但是到目前為止,可擴展性是目前大多數可證明防御所普遍具有的問題。例如,區間界分析是最近流行的證明式防御方法,但是它不能擴展到非常深的神經網絡和大型數據集。由此可見,與攻擊相比,防御系統的發展面臨着更多的挑戰。這主要是因為一次攻擊只能針對一類防御,所以防御機理急需被證明,這樣某種防御在某些情況下對所有可能的攻擊才能都是有效。

 

4.3 未解決的主要挑戰

(1)對抗樣本背后的因果關系。雖然提出了許多對抗攻擊方式,但是對抗樣本的因果關系仍不清楚。早期對這一問題的研究將對抗樣本的出現歸功於模型結構和學習方法,研究者認為適當的策略和網絡結構將顯著提高對抗樣本的魯棒性。研究者沿着這種思路嘗試過一些探索,特別是與產生模糊梯度相關的研究,然而實際上這可能是一種不太合理的研究方向。相反,最近的研究發現對抗性的出現更可能是高維數據幾何和訓練數據不足的結果。具體來說,有關文獻還證明了對抗性擾動在幾個概念驗證數據集(如{0,1}和同心n維球體)上按比例放縮。Ludwig等表明對抗性強的任務比普通的ML任務需要更多的數據,並且所需的數據大小可能以比例O(√1/d)放縮。

(2)通用魯棒決策邊界的存在。由於在不同度量標准下定義了許多對抗攻擊方法,一個自然的問題是是否存在由特定訓練策略的某種DNN來學習的通用魯棒決策邊界。當前,這個問題的答案是“否”。盡管PGD對抗訓練對各種L范數。攻擊表現出顯著的抵抗力,但有文獻表明它仍然容易受到其他。范數的對抗攻擊,如EAD和CW2。Khoury等證明了2-同心球面數據集的最優I2和L。決策邊界是不同的,它們的差異隨着數據集的共維(即數據流形的維數與整個數據空間的維數之差)而增大。

(3)有效防御白盒攻擊。我們仍然沒有看到一種能夠很好地平衡效果和效率的防御。在有效性方面,對抗性訓練表現出最好的性能,但計算成本很高。在效率方面,許多基於隨機和去噪的防御/檢測系統的配置只需幾秒鍾。然而,最近的許多論文表明這些防御方法並沒有他們聲稱的那樣有效。這些研究可證明防御理論為實現對抗防御指明了一條道路,但其准確性和有效性都遠遠不能滿足實際要求。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM