Adversarial Attack Type I: Cheat Classifiers by Significant Changes


出於實現目的,翻譯原文(侵刪)

 Published in: IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2019)

源碼地址:http://www.pami.sjtu.edu.cn/Show/56/115

目錄:

  Abstract

  I. INTRODUCTION

  II. TYPE I ATTACK AND ITS RELATIONSHIP TO TYPE II

    A. Toy Example on Feature Interpretation

    B. Toy Example on Sphere

  III. SUPERVISED VAE MODEL FOR TYPE I ATTACK

    A. Supervised Variational Autoencoder

    B. Image Transition Task

    C. Generating Adversarial Examples for Type I Attack

    D. Attack on Latent Space

  IV. EXPERIMENTAL VALIDATION

    A. Type I Attack on Digits Classifier

    B. Type I Attack on Face Recognizer

    C. Type I Attack Defenses by Detecting

    D. Type I Attack Defenses by Strengthening

    E. Type I Attack on Latent Space

  V. CONCLUSION

 

Abstract

  盡管深度神經網絡取得了巨大的成功,但對抗性攻擊可以通過小擾動欺騙一些訓練有素的分類器。在本文中,我們提出了另一種類型的對抗性攻擊,可以通過顯著的變化欺騙分類器。例如,我們可以顯著地改變一張臉,但是訓練有素的神經網絡仍然將對手和原來的例子識別為同一個人。統計上,現有的對抗攻擊增加了II型錯誤,並且所提出的攻擊針對I型錯誤,因此分別命名為II型和I型對抗攻擊。這兩種類型的攻擊同樣重要,但本質上不同,這是直觀的解釋和數值評估。為了實現該攻擊,設計了一個有監督的變分自編碼器,然后利用梯度信息更新潛在變量對分類器進行攻擊。此外,利用預訓練生成模型,研究了隱空間的I型攻擊。實驗結果表明,該方法在大規模圖像數據集上生成I型對抗樣本是實用有效的。大多數生成的樣本都可以通過為防御II型攻擊而設計的檢測器,並且增強策略僅對特定類型的攻擊有效,這都意味着I型和II型攻擊的根本原因不同。

 

I. INTRODUCTION

  近年來,深度神經網絡(DNN)在圖像分類[1,2],分割[3]和生成任務[4,5]等方面顯示了強大的能力。但是許多DNN模型已經被發現容易受到對抗樣本的攻擊[6,7,8],這些例子阻止了DNNs在物理世界中的部署,例如自動駕駛和外科機器人。對抗性攻擊揭示了訓練有素的DNNs和oracle之間的不一致性,即使它們在已知樣本上有一致的性能。這種不一致性表明DNNs對於對抗性干擾[9]過於敏感,因此當污染的樣本與正確分類的樣本只有微小的差別時,DNNs可能會錯誤地改變它們的標簽。在形式上,可以描述為以下問題:

其中f1是要被攻擊的分類器,而f2是攻擊者,它可能是一個oracle分類器,例如一組人類標注者。在一些文獻[10]中,最后一個要求,即f2(x)=f2(x'),寫為d(g2(x),g2(x'))≤ε,這要求x和x'的距離不超過閾值,並且自然導致f2的預測結果相同。

  對抗攻擊的研究對DNNs的魯棒性研究具有重要意義,對DNNs的許多應用都具有重要意義。例如,生成樣本通常對DNNs來說是困難的,對於增強神經網絡是非常有價值的。此外,原樣本x與對抗樣本x'之間的關系以及生成過程是非常重要的,可能會對DNNs產生深刻的理解。因此,自其提出以來,對抗性攻擊、對抗性防御、對抗性理解一直備受關注。例如,快速梯度符號法(FGSM,[6])可以通過近似線性化分類器在一步內產生對抗樣本。文獻[11]設計了一種強大的攻擊算法,通過同時最小化輸入失真和DNNs輸出與目標輸出之間的距離,獲得了較高的成功率。

  在不喪失一般性的情況下,我們可以假設原始樣本x具有正標簽,即f1(x)=f2(x)=1 in(1),並將其他類別的樣本視為負。然后通過(1),我們生成一個樣本x',使得f1(x')=-1,f2(x')=1。從這個意義上說,(1)產生假陰性並導致II型錯誤。研究產生假陰性和防止II型錯誤是非常重要的。近年來取得了很大的進展,如[6][7][10][12][13][14][15]。然而,II型錯誤只是硬幣的一面。只部分強調(1)並不能得到理想的結果:常數函數f1(x)=1,∀x免疫對抗性攻擊(1),假陰性率為0,但這個函數明顯不好。從統計學上講,與假陽性相對應的I型錯誤應與II型誤差同時考慮。它們的組合為一個分類器提供了一個全面的度量:在上述極端情況下,一個常數函數沒有II型錯誤,但是I型錯誤的比率很高,因此它不是一個好的分類器。

  對抗性攻擊(1)是通過產生假陰性來增加II型錯誤的攻擊,近年來受到越來越多的關注。但是關於I型錯誤的討論沒有。對於I型錯誤,我們關注假陽性,即從一個樣本x,f1(x)=f2(x)=1,我們生成一個對抗樣本x',滿足f1(x')=1,而f2(x')=-1。從數學上講,

對抗攻擊依賴於被攻擊分類器和攻擊者之間的不一致性。對於(1),從x到x'的微小變化(在f2視圖中沒有差異)導致f1的符號反轉。而新的攻擊(2)顯示了另一個不一致性:f1對f2發生的顯著變化沒有響應。圖1給出了一個直觀的例子,攻擊了一個在MNIST上訓練的分類器,其測試精度達到98.64%。從正確識別的“3”開始,i)通過(1),我們稍微干擾它,使對抗數字仍然是“3”,但被識別為“8”;ii)通過(2),我們真的將其更改為“8”,但f1仍與以前一樣:分類器將對抗數字視為“3”。

  與II型攻擊不同,II型攻擊與原始樣本的變體非常小,I型攻擊需要進行重大更改才能轉換真正的標簽。一般來說,這是更困難的,因為增加噪音對於I型攻擊不起作用。本文設計了一個有監督變分自編碼器(SVAE)模型,它是原始的變分自編碼器(VAE)[5]的有監督擴展。基於高斯分布的先驗知識,在隱空間中嵌入信息,可以捕捉到特征。然后在隱空間上,采用梯度下降法對隱變量進行更新,並通過解碼器進行前向傳播,將修正后的隱變量恢復到圖像中。利用隱空間中的高斯約束,並受對抗自編碼器的啟發[16],添加一個鑒別器估計流形在隱空間中的分布,然后成功地進行攻擊。請注意,I型攻擊不限於VAE結構。任何能將輸入轉移到可控隱空間的框架,也就是說樣本被期望遵循已知分布編碼,都有可能進行I型攻擊。本文提供了AC-GAN[17]和StyleGAN[18]對隱空間的I型攻擊(隱空間攻擊在[15]中設計為II型攻擊)的實驗。其他自編碼器方法和生成模型,包括[4][19][20][21][22],也很有希望產生I型對抗樣本。

  本文的其余部分安排如下。第二節提出了I型對抗攻擊,並討論了其與II型攻擊的聯系。I型對抗攻擊的技術在第三節中給出。第四節評估了所提出的對數字和人臉識別任務的攻擊,還報告了為II型攻擊設計的防御性能,顯示了I型和II型攻擊之間的本質區別。在第五節中,對本文進行了總結。

 

II. TYPE I ATTACK AND ITS RELATIONSHIP TO TYPE II

  深度神經網絡在訓練集上表現出強大的擬合能力。盡管f1和f2在已知數據上的性能非常相似,但它們仍然不同,並且這種不一致性可能會被對抗性攻擊暴露出來。對於訓練樣本x,f1和f2具有相同的符號,例如f1(x)=f2(x)=1。當x變為x'時,在以下兩種情況下發生不一致:i)攻擊者f2保持不變,但被攻擊的分類器f1過於敏感,即f2(x')=1但f1(x')=-1;ii)f2觀察到差異,但f1過於穩定,即f2(x')=-1但f1(x')=1。

  這兩種對抗攻擊分別用(1)和(2)來描述。II型攻擊(1)在攻擊方法、防御策略和理論分析方面進行了大量的研究。但I型攻擊並沒有被認真考慮。如[8]所述,到目前為止,只有[23]考慮了I型錯誤,然而,它仍然基於小的變化,並且很容易被發現。在本文中,我們將通過設計一個有監督的變分自動編碼器和梯度更新來設計一個實用的I型攻擊。

 

A. Toy Example on Feature Interpretation

  在介紹詳細的技術之前,我們在這里給出一個虛構示例來演示圖2中I型和II型攻擊的不同潛在原因,其中黃色圓圈和綠色十字代表正和負的訓練樣本。數據在三維空間中,oracle分類器f2(如人眼等)使用x(1)和x(2)來區分樣本。但是在這些樣本上訓練,f1通過考慮x(1)和x(3)得到100%的准確度。因此,x(3)是一個不必要的特性,oracle不考慮它,而是在分類器中使用它。由於x(3)是一個不必要的特征,我們可以沿着x(3)移動一個真正的正數,而oracle無法觀察到該變量,而是使f1發生變化(類型II攻擊,藍色箭頭)。文獻[10]從理論上討論了不必要特征與II型對抗攻擊之間的聯系。

  要生成(2)中描述的另一類對抗樣本,我們需要攻擊缺失特征,而不是不必要的功能。在圖2中,x(2)在oracle中被考慮在內,但被f1省略。由於x(2)缺失,我們可以沿x(2)改變樣本,直到它越過f2的判定邊界,但對f1沒有影響。這個變化由綠色箭頭顯示,通過這個箭頭,我們成功地在oracle視圖中生成了一個與x不同的樣本,但是f1保持不變。這個虛擬的例子展示了I型和II型攻擊的不同本質。為了尋找一個理想的能夠模仿oracle的分類器,需要研究II型攻擊中的不必要的特征和I型攻擊中的缺失特征。

  實際應用要比圖2中的虛擬示例復雜得多,主要是因為這些特性並不是嚴格正交的。但上述特征空間解釋表明,I型和II型對抗性攻擊的根本原因是不同的,因此,針對一種類型設計的防御方法可能不適用於另一種類型。在數值實驗中,我們將證明一些針對II型攻擊設計的防御方法對I型攻擊的魯棒性沒有幫助。更糟糕的是,如果某些方法旨在減少不必要的特征來防御II型攻擊,則可能使分類器更容易受到I型攻擊。

  綜上所述,現有的II型對抗攻擊可以通過小擾動來欺騙分類器,使得分類器有不適當的改變。我們提出的I型對抗攻擊通過顯著的變化欺騙分類器,而分類器不適當地忽略了這些變化。II型的對抗樣本和生成過程被認為是十分有趣的,對分析神經網絡很重要。對於大多數這些主題,I型攻擊是必不可少的。以基於對抗性攻擊的分類器評估為例,不僅要考慮II型錯誤,還要考慮I型錯誤。另一種情況是通過重訓練來增強分類器,對於這種情況,I型攻擊生成的對抗樣本(如圖2中的x1')無法通過II型攻擊找到。對於神經網絡的解釋,研究II型對抗攻擊會導致不必要的特征,而缺失的特征只能通過I型攻擊來捕獲。一般來說,從I型和II型攻擊中學習對抗樣本是有幫助的。

 

B. Toy Example on Sphere

  為了研究對抗性攻擊,文獻[24]設計了一個有趣的例子來對來自兩個不同半徑同心球體的數據進行分類。對於這個簡單的任務,下面的帶有二次激活函數的單隱層網絡實現了非常高的精度:

其中z是x的旋轉,d是W的秩。基於這一等價性,文獻[24]指出,當h>n時,很容易找到對抗樣本,其結論僅限於II類對抗樣本。事實上,當H<N時,仍然存在I型對抗樣本。直觀的解釋是,當h<n時,分類器漏掉輸入的n-h維,使得這些維上的值可以任意修改,同時保持f1的分類結果不變。

  數值上,我們考慮了n=100,h=90且樣本均勻分布在半徑分別為0.8和1.0的同心球體上的實驗。然后,訓練表(3)中的網絡共100萬次迭代,批大小為64,這意味着總共使用6400萬個i.i.d.訓練樣本。經過訓練,對10萬個隨機樣本進行了測試,錯誤率小於10-4,表明我們已經獲得了一個非常好的分類器。對於所獲得的分類器,很難生成如[24]所述的II型對抗樣本。但是,從任何一個||x||2=0.8的樣本中,我們可以首先把它轉換成z-空間,設置

並從z'中得到x'。由於維度z91, ... , z100被f1忽略,生成的x'的函數值與x的函數值相同,但x'已移動到外球面。在實際中,當網絡結構不清晰或(反)投影困難時,我們可以通過將徑向矢量投影到曲面▽f1(x)=0來將x移到外球面。從x到x'的軌跡如圖3所示,這也表明了我們將在下面幾節討論的I型對抗攻擊的基本策略。

 

III. SUPERVISED VAE MODEL FOR TYPE I ATTACK

  在圖4中,我們展示了用於訓練隱空間和生成I型對抗樣本的設計框架。對於編碼器,存在多條可能路徑,本文提出了一種有監督變分自編碼器(SVAE),即VAE的有監督擴展。對於攻擊,f1的梯度不僅像傳統方法那樣反向傳播到f1的輸入x',而且通過解碼器進一步反向傳播到隱變量z。同時,利用攻擊者的梯度修正z,通過解碼器得到一個新的帶有不同標簽的圖像x'。在這個過程中,f1和f2之間需要平衡,以保持f1的輸出不變,以實現I型攻擊。

 

A. Supervised Variational Autoencoder

  讓我們先解釋一下SVAE的細節。基於隱變量z在圖像空間中生成x的VAE生成模型,該模型被建模為p(x) = ∫p(x|z)p(z)dz,監督VAE可以被描述為p(x,y) = ∫p(x,y|z)p(z)dz,其中y是來自攻擊者的標簽信息。

  與VAE相似,為了優化有監督變分自編碼器模型,我們得到了p(x,y)的下界。假設q(z)是隱空間中的任意分布,其到p(z|x,y)的距離可以用Kullback-Leibler(KL)散度來測量:

上述內容可以重寫為:

  條件生成方法[16,27],它使用標簽信息作為優先目標,以分離隱空間中的樣式和內容。在我們的設置中,隱變量z應該包含[28]中的標簽信息。這主要是由於兩個原因:首先,隱空間的分布應該由攻擊者根據其標簽來限制,這使得攻擊者能夠使用梯度來修改生成的圖像;其次,如[10]所述,分類器的判斷是由隱空間中的偽度量決定的空間。因此,我們將p(x|y,z)替換為p(x|z),因為z包含標簽信息y。然后,p(x,y)的下界可以以下式給出:

  為了簡化優化過程,我們選擇q(z)為隱空間中依賴於x的高斯函數,這也是在[5]中假設的。具體而言,q(z|x) = N(μ(x; θenc), σ(x; θenc)),由此使SVAE最大化:

其中這三項分別對應於SVAE模型中的編碼器、分類器和解碼器。SVAE中的分類器對隱變量施加限制,通過解碼器生成具有所需標簽的圖像。

  一般來說,由數據訓練的分類器只適合於數據隱空間中的流形,但可能在外部有較差表現[29]。由於我們直接根據攻擊者和被攻擊分類器的梯度對隱變量進行迭代操作,因此需要一個判別器來防止隱變量在攻擊時位於隱空間的流形之外。因此,攻擊者可以在鑒別器的約束下為隱變量的更新提供一個穩定有效的方向。在SVAE中,隱變量的分布是標准高斯分布,這使得基於樣本的判別器成為可能。具體地,在輸出層上設計具有sigmoid激活函數的二值鑒別器,以區分解碼器從輸入圖像編碼得到的真實隱變量值和從高斯分布隨機采樣的虛假隱變量值:

  本文采用兩階段優化方法對SVAE進行訓練。在第一階段,我們同時訓練編碼器、解碼器和分類器以最大化目標函數(6)。編碼器函數fenc將輸入x映射為高斯分布,其均值和方差分別為μ(x; θenc)和σ(x; θenc)。通過重參數化技巧[5],從這樣的高斯分布中采樣一個隱變量z,然后將其分別用於分類和重建為f2和fdec。采用梯度下降法Γ,如Adam,訓練參數θenc,θ2和θdec,分別對應於fenc、f2和fdec

  在第二階段中,我們在訓練完第一階段之后,基於良好定位的編碼器,訓練判別器fdis最大化(7)。輸入x首先被編碼成在隱空間中具有均值μ(x)和方差σ(x)的高斯函數。然后正例從ztrue(服從N(μ(x; θenc), σ(x; θenc)))中采樣,反例從標准高斯分布zfake中采樣。采用梯度下降法只更新鑒別器fdis中的參數dis。算法1描述了這種兩階段優化算法。

 

B. Image Transition Task

  基於經過訓練的SVAE,我們將從(2)中描述的原始樣本x生成一個I型對抗樣本x',使得x'和x在f2視圖中具有不同的標簽,但被f1識別為同一類。第一步也是更簡單的一步是將輸入圖像x轉換為另一個具有不同標簽的圖像x',這是圖像轉換任務。在我們的框架中,類信息不是直接給出的,例如,在條件生成方法中,而是來自攻擊者的監督項。隱變量根據f2的梯度進行迭代修正,並通過解碼器恢復成圖像。具體地說,生成目標樣本的目標函數是:

中交叉熵損失被應用於f2,它是分類任務中的常見選擇[1,2]。此外,為了防止z在隱空間中移動到流形的外部,還加入了一個具有來自鑒別器fdis的權重α的損失項。利用帶權重γ的z上的l2正則化項,將z限制在標准高斯空間中作為流形的環境空間。

  在這里,我們利用所建立的方法對MNIST的數字圖像和CelebA的人臉圖像進行圖像轉換。對於MNIST數據集,建立了一個測試精度為98.64%的分類器,並將其用於圖像轉換:從圖像“i”到生成“i+1”。對於CelebA,建立了一個測試准確率為94.9%的性別分類器,用於改變圖像的性別。圖5展示了轉換性能,其中左列表示原始圖像,右列示出具有所需標簽的生成圖像,中間列是不同迭代中的臨時圖像。

  注意,圖像轉換任務不同於特征轉換,其典型路徑是建立語義特征並更改所需的語義特征;參見,例如Fader Networks[30]和Deep Feature Interpolation[31]。這里的圖像轉換是在分類器f2的指導下實現的。對於視覺性,我們選擇了f2作為性別分類器,但它不需要語義,而且可以是綜合的。這種差異也可以從視覺上觀察到:由於特征已被分離,由Fader Networks生成的面部看起來與原始面部非常相似;而在圖5(b)中,生成的面部和原始面部可視為不同的人。

 

C. Generating Adversarial Examples for Type I Attack

  在上面的圖像轉換任務中,我們成功地生成了帶有所需標簽的新樣本。此外,如圖4所示,結合被攻擊的分類器f1,我們嘗試保持f1的輸出不變,即,生成如(2)所述的I型對抗樣本。對於分類器f1,通過最小化以下函數生成具有原始標簽y的輸入x的目標標簽為y'的對抗樣本x',其中訓練過的SVAE模型是攻擊者,

這里,J1(x',·)是被攻擊分類器的損失函數,對於不同的任務可以采用不同的公式。在多類分類任務中,例如[1,2],f1(x)是每個類的概率向量。而在人臉識別任務[32]中,f1(x)是一個特征向量,其中小距離||f1(x') - f1(x)||2表示x和x'趨向於同一個人。對於這兩個任務,可以將J1(x',·)設置如下:

  在(8)中,有一個正參數kt反映了我們為保持受到攻擊的分類器f1不變而施加的壓力。在我們的方法中,kt可以根據不同的迭代而變化。通常,在開始時,我們允許f1輸出的變化來真正改變圖像。稍后,kt增大以將圖像拉回來,使得f1的輸出與原始的一樣。特別地,為kt設計了自適應權重策略以保持這種平衡:

  在我們的實驗中,在多次迭代中增加平衡權重之后,kt被裁剪成[0,0.001]。受[33]的啟發,超參數β控制損失J1和J2之間的平衡,(該平衡)設置為

較低的β意味着生成的對抗性樣本x'更可能屬於目標標簽y',然而認為f2中f2(x) ≠ f2(x')的概率較高。在(10)中,另一項^J1被用作被攻擊分類器的目標值。在Hingo損失項中引入此項,以在f1中適當犧牲一點置信度,使輸入圖像更集中於f2,從而使輸入圖像真正成為具有不同類別的新圖像。此項可提高I型攻擊的圖像質量和成功率。

  在所有這些網絡經過良好訓練后,我們迭代更新隱變量z以最小化(8)中的目標函數。首先,我們根據給定的輸入x,將z初始化為高斯分布zinit = μ(fenc(x))的均值。類似於訓練網絡,我們在這里使用Adam[34]迭代地優化隱變量z。算法2說明了生成I型對抗樣本的總體算法(譯者注:優化隱變量z中的+應該為-,因為最小化應該是沿負梯度方向移動;最后應該是通過解碼器fdec而不是fenc得到最終的結果圖)。顯然,0在分類和識別任務中都是JSA的下界。因此,采用梯度下降法進行JSA優化時,保證了算法的收斂性。代碼在補充材料(SM)中提供,並將在未來發布。

 

D. Attack on Latent Space

  對抗性攻擊揭示了神經網絡的弱點,為分析神經網絡提供了工具。雖然現有的大多數攻擊都是針對圖像輸入的,但是攻擊可能發生在非圖像數據上。最近,[15]設計了一個對隱空間的有趣攻擊。假設z是隱空間中的原始向量,攻擊是生成z',使得||z - z'||很小,但是通過生成模型,例如AC-GAN[17]在[15]中使用,生成的圖像G(z)和G(z')被攻擊的分類器f1錯誤地識別為不同的類,即f1(G(z)) ≠ f1(G(z'))。原始z可以是給定的,也可以是隨機生成的。這種攻擊去掉了編碼器,適用於非圖像數據。

  從上面的描述可以看出[15]中設計的攻擊屬於II型攻擊。同時,我們也可以設計對隱空間的I型攻擊,這在數學上被描述為以下問題,

其中f1是被攻擊的分類器,G是生成模型,且ε是用戶定義的閾值。實際上,(12)是(2)的一個特例,我們使用一個基於簡單距離的分類器作為攻擊者。基本上,沿着流形中f1(G(z))保持恆定的方向,我們可以偏離z,在隱空間上找到I型對抗樣本。具體來說,這些對抗樣本可以通過最小化以下損失函數而產生,

其中,J1定義為(9),G是一個事先經過訓練的生成模型,k是一個權衡參數。(13)中的第一項迫使f1判斷生成的兩個樣本G(z')和G(z)是同一類,而第二項鼓勵z'偏離原始z。較小的k意味着我們允許f1有較大的變化,以便在隱空間中獲得較大的距離。我們可以像(10)一樣設計一個k的自適應策略,但在本文中,我們在整個過程中保持k不變。如果輔助分類器在G中建模,如AC-GAN[17]並用fG表示,那么我們也可以最小化fG(z')和ytarget的差異來分配目標標簽,否則,攻擊是非目標的。

 

IV. EXPERIMENTAL VALIDATION

  在這一部分中,我們驗證了針對這種新型對抗攻擊提出的方法。主要有兩個問題:①所提出的方法是否能顯著地改變圖像,但保持攻擊的分類器不變;②是否存在與現有對抗攻擊的本質區別。出於這兩個目的,我們首先對MNIST數據集[35]和CelebA數據集[36]上的攻擊進行驗證,前者將新生成的數字識別為原始數字,后者將生成具有不同性別但被識別為同一個人的新人臉圖像。之后,我們應用防御方法來防御攻擊。I型和II型攻擊的不同性能證實了它們的本質區別。最后,對隱空間上的I型攻擊進行了評估,這也表明了對I型攻擊使用不同生成模型的可能性。

  對於SVAE訓練,我們使用Adam[34],學習率為0.0002。在(8)中的超參數α和γ分別設置為0.01和0.0001。(10)中用於平衡的β是0.001。在攻擊迭代過程中,利用Adam更新隱變量z,學習率為0.005。(10)中的目標損失^J1被設置為0.01,作為數字圖像分類任務的交叉熵損失;^J1被設置為1.00,作為人臉識別任務的歐氏距離。SVAE結構的細節在SM中提供。對於數據集,MNIST包含60K個28x28大小的手寫數字圖像。在普通分割之后,我們使用50K個圖像進行訓練,然后利用剩余的圖片進行測試。CelebA數據集包含超過20萬張帶有40個屬性標注的人臉圖像。我們只需根據性別標簽將CelebA數據集分割為男性/女性子集,然后將其標准化並居中裁剪為64x64大小。本文的所有實驗都是在一個12GB顯存的NVIDIA TITAN X GPU上用Tensorflow[37]實現的。

 

A. Type I Attack on Digits Classifier

  首先利用該方法攻擊在MNIST數據集上訓練的分類器。被攻擊的分類器f1是一個包含128個隱藏單元的MLP,測試誤差為2.73%。我們訓練了一個SVAE模型,它有1.36%的測試誤差,充當攻擊者f2。然后,從一個已經被f1正確分類的給定圖像中,我們應用算法2生成一個對抗樣本。目標是將"i"改為"i+1",但f1仍錯誤地將其歸類為"i"。

 

  在圖6中,我們展示的是當SVAE試圖進行I型攻擊以將圖像從"4"轉換為"5",而MLP仍將其分類為"4"時,攻擊者f2、鑒別器fdis和多層感知機(MLP)f1的對數損失項。上面的圖像是在相應的迭代中生成的對抗樣本x'。注意,f2的損失是相對於y'=5的,而f1的損失是相對於y=4的。因此,在開始時,由於原始圖像是數字"4",f2的損失遠遠高於f1。然后,通過最小化(8)中的JSA,當f1的損失增加時,圖像逐漸轉換為數字"5",因為目標損失^J1被設置為0.01,並且(10)中J1的權重被裁剪為0。同時,由於隱變量必須在隱空間中超越流形,因此鑒別器的損失也在增加。當J1增加超過^J1且J2低於(11)中描述的平衡時,J1的自適應權重kt增加以拉低J1直到收斂。盡管攻擊者f2的損失在開始時迅速減少,但是來自攻擊者的監督信息並不十分可靠,因為它的性能在隱空間的流形之外是不可預測的。因此,判別器在抑制隱變量進入流形中起着關鍵作用,使得SVAE中的分類器能夠提供可信的梯度。

  在圖7(a)中,我們展示了對數字分類器的I型攻擊的一些樣例。原始圖像繪制在左欄,生成的圖像繪制在右欄,圖像之間呈現出逐漸變化的過程。每個圖像頂部標記的數字表示被攻擊分類器f1給出的原始類的置信度。在攻擊過程中,置信度將先下降后上升,這與我們在算法2中設置的k一致,如第III.C節所述。

 

B. Type I Attack on Face Recognizer

  接下來,我們評估對人臉識別器FaceNet[32]的攻擊。我們直接使用在CelebA上訓練的FaceNet進行人臉識別,它在LFW[38]數據集上達到99.05%的准確率。在我們的實驗中,同樣的面部識別、白化和其他預處理程序都是按照[32]推薦的進行的。在CelebA數據集上訓練SVAE,其性別分類f2的准確率為94.9%。我們的任務是改變一個形象的性別,但要讓它被FaceNet識別為同一個人。這項任務和上一項任務有一個有趣的區別。在前面的任務中,攻擊者比被攻擊的分類器強。但對於這項任務,SVAE分類精度要低於被攻擊的FaceNet。而且,同一性別是同一個人的必要條件,FaceNet的網絡結構也更加復雜和深入。即使在f1強於f2的情況下,提出的I型攻擊也可能成功。

  圖7(b)給出了一些典型的對抗樣本。對於每一對,左邊的臉在CelebA中,右邊的臉由算法2生成。圖像上方的數字是FaceNet給出的距離,對於該距離,由[32]建議相同人的閾值為1.242。

  為了評估I型攻擊的成功率,我們從CelebA中驗證集的前1000個圖像中生成對抗樣本。當攻擊成功時,我們的意思是圖像對(x,x')滿足三個條件:i)f1(x)=f1(x'),即兩張臉被FaceNet識別為相同的人;ii)f2(x)≠f2(x'),即在f2看來,不同性別的人不是同一個人;iii)x'確實是一張臉。后兩個標准由30名評論者評判,平均成功率為69.8%。所有生成的臉都在SM中有提供,以供參考。

 

C. Type I Attack Defenses by Detecting

  以上兩個實驗驗證了生成I型對抗樣本的有效性。如前所述,II型攻擊反映了過度敏感,I型攻擊依賴於分類器的過度穩定性。由於潛在的原因是不同的,我們期望通過檢測對手的輸入來設計用於II型攻擊的防御策略對I型攻擊沒有多大幫助。

  為了驗證這一推論,我們使用所提出的方法來攻擊具有特征壓縮防御策略的MLP[39],這是最有效的防御策略,並且顯示了對抗許多現有II型攻擊的巨大潛力。特征壓縮防御策略是通過減少可用於對抗樣本的輸入特征的程度來檢測對抗樣本。具體地,它計算輸入樣本的分類器預測(例如,softmax層的輸出)與其壓縮樣本之間的距離。如果距離大於給定的閾值,則防御方法將輸入樣本視為對抗樣本,拒絕對該樣本進行分類。防御策略概括如下:

其中F(x)是特征壓縮策略,D(·,·)是距離度量,ζ是一個超參數,用作判斷輸入x是否是對抗樣本(然后拒絕它)的閾值。遵照在[39]中的公共設置,為特征壓縮策略F設置了具有一位深度縮減和2×2中值平滑的聯合壓縮器,其呈現出如[39]中所示的最高檢測率。選擇歐氏距離作為距離度量D。在MNIST測試集上隨機抽取500個樣本,計算干凈測試樣本、I型對抗樣本和II型對抗樣本在不同閾值下的檢測率。算法2(SVAE)、FGSM[6]、DeepFool[25]、CW[12]和EAD[13]分別生成了I型和II型的對抗樣本。表I列出了干凈樣本、I型對抗樣本和II型對抗樣本的檢測率,即檢測器識別為對抗樣本的比率。對於不同的ζ值,干凈樣本和I型對抗樣本的檢測率沒有顯著差異,這意味着I型對抗樣本不能很好地與干凈的數據區分開來。相比之下,II型對抗樣本的檢測率明顯高於干凈數據,說明特征壓縮是一種很好的II型攻擊檢測方法,但對I型攻擊不起作用。 

  在攻擊FaceNet中也可以觀察到類似的特征壓縮現象,如第IV.B節所述,生成1000個I型對抗樣本。通過投影梯度下降(PGD,[14])生成相同數量的II型對抗樣本。我們將ζ設為1.2,並考慮平滑核的不同大小。檢測率見表II,表明特征壓縮對I型攻擊沒有幫助,因為I型攻擊不是建立在增加噪聲的基礎上的。

 

D. Type I Attack Defenses by Strengthening

  反饋對抗樣本對分類器進行重訓練是提高網絡魯棒性的另一種方法。接下來,我們使用MNIST數據集測試了為II型對抗樣本設計的Adversarial Logit Pairing[40]的防御性能。被攻擊的分類器是LeNet[41]。在強化后,使用攻擊原始網絡生成的對抗樣本進行驗證。II型攻擊的准確率提高到98.5%,因為最小化成對邏輯回歸配對損失L(f(x),f(x')),這需要在原始樣本x和對抗樣本x'之間保持很小的距離。但是,此設置不適用於I型攻擊:如果x'是由I型攻擊生成的,則x和x'不屬於同一類,並且L(f(x),f(x'))不應很小。在我們的實驗中,I型攻擊的准確率僅為14.2%,驗證了邏輯回歸配對技術不能直接用於I型對抗樣本。

  正如[42]所建議和數值驗證的那樣,根據不同模型和攻擊方法之間的可遷移性,添加其他攻擊產生的對抗樣本是有幫助的。一個有趣的問題是,防御一種對抗攻擊的能力是否有助於對抗另一種攻擊。為了回答這個問題,我們分別用I型、II型(FGSM)和II型(PGD)對抗樣本來加強FaceNet。對於II型攻擊,我們使用對抗邏輯回歸配對方法。對於I型攻擊,對抗邏輯回歸配對沒有如前所示的幫助,因此我們轉向普通的對抗訓練。具體地說,通過攻擊原始網絡而產生的對抗樣本被隨機分成兩部分,概率相等。其中一個子集與LFW數據集一起返回,用於對抗訓練。然后在其余的對抗樣本上對增強的FaceNets進行評估。分類准確率見表III。對角線表示在相同攻擊方法下,通過對抗訓練防御對抗性攻擊的性能。其他因素顯示了對抗訓練的可遷移性。可以發現,通過FGSM增強FaceNet可以提高對PGD的魯棒性,反之亦然。然而,通過II型對抗樣本進行增強對防御I型攻擊的效果很小,顯示出它們的差異。

 

E. Type I Attack on Latent Space

  在最后一個實驗中,我們將考慮對隱空間的I型攻擊。攻擊可能發生在非圖像數據上。但是為了使性能可視化,我們應用生成模型將隱向量傳輸到圖像。攻擊設計獨立於生成模型。為了攻擊MNIST上的LeNet[41],我們選擇AC-GAN[17],這也在[15]中被使用。在CelebA上攻擊FaceNet時,我們使用StyleGAN[18],這是最先進的生成模型之一。我們在MNIST上訓練了一個具有128個隱特征的AC-GAN,並使用了由[18]提供的具有512個隱特征的StyleGAN。由於這些生成模型只影響視覺質量,而對攻擊性能沒有影響,因此我們在此不報告它們的結構和訓練細節。基於訓練的生成模型,我們通過最小化(13)來攻擊分類器f1,其中攻擊LeNet的超參數分別設置為k=10-2,ε=0.1,攻擊FaceNet的超參數分別設置為k=10-3,ε=0.35。使用學習率為0.01的Adam。

  在圖8中,通過由AC-GAN繪制生成圖像(在28x28中)來顯示對隱空間的I型攻擊。這些數字的每一對在視覺上是不同的,然而,它們被攻擊的LeNet識別為同一類。由於AC-GAN有一個輔助分類器,我們可以利用這個分類器來設置目標標簽。

  在圖9中,我們在StyleGAN的隱空間上顯示了由I型對抗攻擊生成的6個人臉序列。由於StyleGAN強大的生成能力,對抗圖像的大小為1024x1024。從每排的左臉開始,攻擊會顯著改變外觀。然而,被攻擊的FaceNet仍然認為他們是同一個人。與圖7(b)所示的攻擊不同,基於StyleGAN的攻擊不能控制改變方向,例如從男性到女性或相反。未來,基於StyleGAN或其他生成模型實現有針對性的I型攻擊具有重要意義。

 

V. CONCLUSION

  假陽性(FP)和假陰性(FN)的比率是衡量分類器性能的重要指標,因此,針對假陽性的對抗攻擊(本文提出的I型攻擊)和針對假陰性的對抗攻擊(目前流行的II型攻擊)都值得研究。特征空間的不一致性使得分類器容易受到攻擊。但I型和II型攻擊的根本原因是不同的:I型攻擊依賴於攻擊者利用被攻擊分類器忽略的缺失特征,而II型攻擊則修改了對攻擊者沒有意義但是被攻擊分類器關注的不必要特征。

  產生假陽性就是通過顯著的變化欺騙分類器。生成目標是一個全新的樣本,被攻擊的分類器會錯誤地將其分類到原始樣本的同一類中。針對I型對抗攻擊,設計了一種有監督的變分自動編碼框架。在這個框架中,攻擊者被顯式地建模以提供監督信息,從而生成一個新的有意義的對抗樣本。然后根據攻擊者和被攻擊分類器的梯度信息,通過修正隱空間中的隱變量,建立了一種I型攻擊的生成算法,而不是直接在圖像空間中操作,最終導致噪聲的產生,然后通過解碼器將更新后的變量恢復成圖像。為了從攻擊者那里獲得穩定且可信的梯度,設計了一個判別器,通過迭代生成算法限制隱變量在流形上的位置。

  在數值實驗中,該方法成功地生成了I型對抗樣本來欺騙訓練有素的分類器。這些樣本中的大多數都能通過特征壓縮檢測,這是一種有效的II型攻擊檢測方法,暗示了I型和II型攻擊的不同本質原因。由於這種差異,目前的強化方法不具備類型交叉能力,即通過II型對抗樣本對神經網絡進行再訓練,對防御I型攻擊沒有好處。一般來說,I型對抗攻擊是一種新的對抗攻擊,對理解神經網絡具有重要意義。該方法是一種生成I類對抗樣本的方法,其它具有自動編碼和生成能力的結構對I型攻擊也有一定的應用前景,可用於分類器評估、分類器重訓練和特征分析。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM