《Backdoor Learning: A Survey》閱讀筆記
摘要
后門攻擊的目的是將隱藏后門嵌入到深度神經網絡(dnn)中,使被攻擊模型在良性樣本上表現良好,而如果隱藏后門被攻擊者定義的觸發器激活,則被攻擊模型的預測將被惡意改變。這種威脅可能發生在訓練過程沒有完全控制的情況下,例如在第三方數據集上進行訓練或采用第三方模型,這是一種新的現實威脅。盡管后門學習是一個新興的、發展迅速的研究領域,但對其進行系統的綜述卻一直是空白。在本文中,作者首次對這一領域進行了全面的綜述。作者根據現有的后門攻擊和防御的特點,對其進行了歸納和分類,並提供了一個統一的基於中毒的后門攻擊分析框架。此外,我們還分析了后門攻擊與相關領域(即對抗性攻擊和數據中毒)之間的關系,並總結了被廣泛采用的基准數據集。最后,在回顧文獻的基礎上,簡要概述了未來的研究方向。
I. Introduction
近十年來,深度神經網絡已成功應用於人臉識別、自動駕駛等關鍵任務。因此,其安全問題具有重要意義,引起了廣泛關注。一個被廣泛研究的例子是對抗性例子,它探索了推理階段dnn的對抗性脆弱性。與推理階段相比,dnn的訓練階段涉及更多的步驟,包括數據采集、數據預處理、模型選擇與構建、訓練、模型保存、模型部署等。更多的步驟意味着更多的攻擊機會,也就是說,更多的安全威脅dnn。同時,dnn強大的能力在很大程度上依賴於其龐大的訓練數據和計算資源。為了降低培訓成本,用戶可以選擇采用第三方數據集,而不是自己收集培訓數據,因為互聯網上有很多免費可用的數據集;用戶也可以基於第三方平台(如雲計算平台)培訓dnn,而不是在本地培訓dnn;用戶甚至可以直接使用第三方模型。便利性成本是喪失對培訓階段的控制權或知情權,這可能會進一步加大培訓dnn的安全風險。訓練階段的一個典型威脅是后門攻擊,這是本調查的主要重點。與對抗性攻擊不同,后者的漏洞是由模型和人的行為差異造成的,后門攻擊者利用了對dnn的非魯棒特征(如紋理)的“過度”學習能力。更多的后門攻擊與相關領域的比較在第五節。
一般來說,后門攻擊的目的是將隱藏的后門嵌入到dnn中,使被感染的模型在后門未被激活的情況下對良性測試樣本表現良好,類似於在良性環境下訓練的模型;但是,如果后門被攻擊者激活了,那么它的預測將被更改為攻擊者指定的目標標簽。由於受感染的dnn在良性設置下正常運行,並且后門(僅)由攻擊者指定的觸發器激活,因此用戶很難意識到它的存在。因此,隱蔽的后門攻擊是對dnn的嚴重威脅。目前,訓練數據中毒是訓練過程中將后門功能編碼到模型權重的最直接和常見的方法。如圖1所示,通過添加攻擊者指定的觸發器(例如,局部補丁)來修改一些訓練樣本。這些具有攻擊者指定的目標標簽的修改樣本和良性訓練樣本被送入dnn進行訓練。此外,后門觸發器可以是不可見的中毒樣品的標簽也可以與目標標簽一致,增加了后門攻擊的隱秘性。除了直接毒害訓練樣本外,還可以通過遷移學習,直接修改模型的權值,引入額外的惡意模塊來嵌入隱藏后門。換句話說,后門攻擊可能發生在培訓過程的所有步驟中。

為了減輕后門威脅,提出了不同的防御方法。總的來說,這些方法可以分為兩大類,包括經驗后門防御和認證后門防御。經驗后門防御是在對現有攻擊的一些觀察或理解的基礎上提出的,在實踐中表現良好;然而,它們的有效性沒有理論上的保證,可能會被一些自適應攻擊所繞過。相比之下,認證后門防御的有效性在理論上是在一定的假設下得到保證的,但在實踐中其有效性普遍弱於經驗抗辯。如何更好地防御后門攻擊仍然是一個重要的懸而未決的問題。
II. Preliminaries
A.專業術語定義
- 良性模型(Benign model):指在良性環境下訓練的模型。
-
受感染模型(Infected model):指具有隱藏后門的模型。
- 中毒樣本(Poisoned sample):在基於中毒的后門攻擊中用於在訓練過程中嵌入后門的改進訓練樣本。
-
觸發器(Trigger):用於生成中毒樣本和激活隱藏后門的模式。
-
攻擊樣本(Attacked sample):用於查詢被感染模型的惡意測試樣本(帶有觸發器)。
- 攻擊場景(Attack scenario):指可能發生后門攻擊的場景。通常發生在用戶無法訪問或無法控制培訓過程時,如使用第三方數據集進行培訓、通過第三方平台進行培訓、采用第三方模型等。
- 源標簽(Source label):表示中毒或受攻擊樣本的原始標簽。
- 目標標簽(Target label):攻擊者指定的標簽。攻擊者意圖使所有被攻擊的樣本都被感染模型預測為目標標簽。
- 攻擊成功率(ASR):表示被感染模型預測為目標標簽的被攻擊樣本的比例。
- 良性樣本准確率(BA):表示被感染模型預測的良性測試樣本的准確性。
- 攻擊者的目標(Attacker’s goal):描述后門攻擊者打算做什么。一般情況下,攻擊者希望設計一個受感染的模型,在實現高ASR的同時,在良性測試樣本上表現良好。
-
能力(Capacity):定義了攻擊者/防守者為了達到目標能做什么,不能做什么。
- 攻擊/防御方法(Attack/Defense approach):說明了所設計的后門攻擊/防御的過程。
B.經典場景及對應能力
場景一:采用第三方數據集。在這種情況下,攻擊者直接或通過Internet向用戶提供有毒數據集。用戶將采用(有毒的)數據集來訓練和部署他們的模型。因此,攻擊者只能操作數據集,而不能修改模型、訓練計划和推理管道。相反,在這種情況下,防御者可以操縱一切。例如,他們可以清理(有毒的)數據集,以減輕后門威脅。
場景二:采用第三方平台。在這個場景中,用戶將他們的(良性的)數據集、模型結構和訓練計划提供給不可信的第三方平台(例如谷歌Cloud)來訓練他們的模型。雖然提供了良性數據集和訓練計划,但是攻擊者(即惡意平台)可以在實際的訓練過程中修改這些數據集和訓練計划。但是,攻擊者不能改變模型結構,否則用戶會注意到攻擊。相反,防御者不能控制訓練集和調度,但可以修改訓練模型以減輕攻擊。例如,他們可以在一個小型的本地良性數據集上對它進行微調。
場景三:采用第三方模型。在這種情況下,攻擊者通過應用程序編程接口(API)或Internet提供經過訓練的受感染dnn。攻擊者可以更改除推理過程之外的所有內容。例如,用戶可以在預測之前對測試圖像引入預處理模塊,攻擊者無法控制。對於防御者來說,當提供了源文件時,他們可以控制推理管道和模型;然而,如果他們只能訪問模型API,他們就不能修改模型。
III. Poisoning-Based Backdoor Attack
在過去的三年里,有很多人提出了后門攻擊。在本節中,首先提出一個統一的框架來分析現有的基於投毒的圖像分類攻擊,基於對攻擊屬性的理解。在此基礎上,對現有的基於投毒的攻擊進行了詳細的總結和分類。最后還討論了對其他任務或范式的攻擊以及后門攻擊的善意應用。
A.基於中毒攻擊的統一框架
本文首先定義了這一領域的三個必要風險,然后描述了基於中毒的后門攻擊的優化過程。根據過程的特點,可以根據不同的標准對基於中毒的攻擊進行分類,如圖2所示。表二總結了更多關於分類標准的細節。

定義1(標准、后門和可感知風險)。
- 標准風險Rs:度量x(即C(x))的預測是否與它的groud-truth label y相同。它的定義與有標記的數據集DL的關系式為

- 后門風險Rb:表示后門觸發器是否能成功激活分類器中隱藏的后門。它的定義與DL的表述為

- 可感知風險Rp:指有毒樣本(即x')是否可以被(人或機器)檢測為惡意樣本。它關於DL的定義表述為

根據上述定義,可以將現有的攻擊歸納為一個統一的框架,具體如下:

t∈Γ,λ1和λ2是兩個非負權衡超參數,Ds是DL的子集,|Ds|/|DL|是投毒率。
評價:由於在Rs和Rb中使用的指標函數ΙΙ(·)是不可微的,所有在實踐中通常使用它的替代損失(如交叉熵函數、KL散度)來替代。優化(4)可以通過不同的規范表示現有的攻擊。例如,當λ1=|DsL|/|DL-DsL|,λ2=0,t未優化(即|Γ|=1)時,則退化為BadNets和Blended Attack。當λ2=+∞,D(x';x)=||x'-x||p時,則變為lp-ball bounded invisible backdoor attacks。此外,可以通過多階段方法同時或單獨優化參數。
注意:這個框架可以很容易地推廣到其他任務,比如語音識別。
B.評價指標
為了評價圖像分類中后門攻擊的性能,通常采用兩個經典指標,如前面定義的(1)良性准確率 (BA)和(2)attack成功率(ASR)。ASR越高,被感染模型與正常模型之間的BA越接近,攻擊性能越好。此外,中毒率(即中毒樣本相對於所有訓練樣本的比率)越小,良性圖像與中毒圖像之間的擾動越小,攻擊的隱蔽性越強,攻擊效果越好
C.對圖像和視頻識別的攻擊
1)BadNets:
啟發:與硬件設施相似,后門也可以存在於算法中(如DNNs)
貢獻:首先引入了深度學習中的后門攻擊,並提出了一種BadNets方法,通過毒害一些訓練樣本來注入后門。
方法:首先,在良性樣本集中選取一小部分加入后門觸發器,也就是說,將后門觸發器印到良性圖片x上來獲得攻擊者指定的標簽y相關的投毒樣本(x',yt)來生成后門圖片x',然后使用有毒樣本和良性樣本對模型進行訓練。
經過訓練的DNN會被感染,在良性測試樣本上表現良好,類似於僅使用良性樣本訓練的模型;然而,如果同一個觸發器包含在一個被攻擊的圖像中,那么它的預測將被更改為目標標簽。BadNets可能發生在前面描述的每個場景中,是一個嚴重的安全威脅。
BadNets是可見攻擊的代表,它開啟了這一領域的時代。幾乎所有后續的基於投毒的攻擊都是基於這種方法進行的。
2)Invisible Backdoor Attacks:
Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning
貢獻:證明trigger 可以通過不同的形式(甚至高斯噪聲)來構成,而不是單一的像素塊;第一次提出了后門的隱蔽性(不可見性),提出怎樣去降低后門的可見度(小比例、混合策略、精心設計的模式,第一次討論了現實中的攻擊行為)




Label-Consistent Backdoor Attacks
動機:不可見的擾動不足以確保隱蔽性,因為中毒樣本的標簽與其基本真相標簽不匹配。
貢獻:證明了干凈標簽攻擊的可行性;提出一個新的方法來增加觸發器的隱蔽性;討論如何減輕數據擴充的反作用
方法:挑選p%的帶有標簽的干凈樣本;使用基於AT的模型對所有選定圖像進行非目標對抗性攻擊,以減輕“魯棒特征”的影響。對攻擊樣本添加觸發器;訓練
hidden trigger backdoor attack
貢獻:一種新穎的干凈標簽后門攻擊方法,該方法在特征空間中優化與目標圖像接近的有毒圖像,以增加不可見性;討論了動態后門攻擊。
方法:以良性樣本訓練;產生干凈標簽的投毒樣本;使用生成的中毒樣本和良性樣本微調模型。

3)Optimized Attacks:
觸發器是基於中毒的攻擊的核心,因此分析如何設計更好的觸發器而不是簡單地使用給定的未優化的觸發器模式具有重要意義,引起了一些關注。優化的攻擊產生有毒的樣本與優化的觸發器,以實現更好的攻擊性能。Liu et al.首先探索了這個問題,他們提出了優化觸發器,使重要神經元達到最大值。Li等人將觸發器生成描述為一個兩層優化,其中觸發器被優化以放大一組神經元激活,並伴有“隱形預正則化”。Bagdasaryan等人將后門攻擊視為多目標優化,提出同時優化觸發和訓練DNNs。最近,在一個假設下,如果一個擾動可以將大多數樣本引導到目標類的決策邊界,那么它將作為一個有效的觸發器,也可以通過通用對抗性擾動產生觸發器。這些設計方法雖然取得了一定的成功,但大多數仍然是啟發式的。如何以更優化的方式設計觸發器仍然是一個重要的開放問題。
4) Physical Backdoor Attacks:
與之前完全在數字空間進行的攻擊不同,在物理攻擊中生成有毒樣本時涉及到物理空間。Chen等人首先探索了這次攻擊的情況。在他們的實驗中,采用了一副眼鏡作為物理觸發,以誤導在相機中開發的受感染的面部識別系統。Wenger等人還對物理世界中攻擊人臉識別的進一步探索進行了討論。在[7]中也討論了類似的想法,在攻擊部署在攝像頭中的交通標志識別時,使用了便利貼作為觸發。最近,Li等人證明了現有的數字攻擊在物理世界中失敗,因為與用於訓練的樣本相比,所涉及的轉換(例如旋轉和收縮)改變了被攻擊樣本中觸發的位置和外觀。這種不一致性將大大降低攻擊的性能。基於這種理解,他們提出了一種基於轉換的攻擊增強,以便增強的攻擊在物理世界中仍然有效。這種嘗試是在真實應用程序中成功進行后門攻擊的重要一步。
5) Black-box Backdoor Attacks:
與以往的白盒攻擊需要訓練樣本的知識不同,黑盒攻擊采用的是訓練集不可訪問的設置。在實踐中,由於隱私或版權的考慮,訓練數據集通常不會共享,因此黑盒攻擊比白盒攻擊更現實。具體來說,黑盒后門攻擊首先需要生成一些訓練樣本。例如,在[32]中,他們通過優化從另一個數據集初始化的圖像來生成每個類的一些代表性圖像,使所選類的預測置信度達到最大。利用反向訓練集,可以采用白盒攻擊進行后門注入。黑盒后門攻擊比白盒后門攻擊要困難得多。目前,針對這一領域的作品很少。
6) Semantic Backdoor Attacks:
大多數后門攻擊,即非語義攻擊,假設觸發器是獨立於良性圖像。換句話說,攻擊者需要在推理階段修改圖像來激活隱藏的后門。是否有可能樣本的語義部分也可以作為觸發器,這樣攻擊者就不需要在推理時修改輸入來欺騙被感染的模型。Bagdasaryan等首先研究了這個問題,提出了一種新的后門攻擊類型,即語義后門攻擊。具體來說,他們演示了將攻擊者選擇的標簽分配給具有特定特征的所有圖像,例如,綠色汽車或帶有賽車條紋的汽車,用於訓練,可能會在受感染的dnn中創建一個語義隱藏后門。因此,受感染的模型會自動對包含預定義語義信息的測試圖像進行誤分類,而不需要對圖像進行任何修改。在[36]中也探索了類似的想法,其中隱藏的后門可以被圖像中某些物體的組合激活。由於這類攻擊不需要在數字空間的推理過程中修改圖像,我們認為它是非常惡意的,值得進一步探索。
D. 對其他領域或范式的攻擊
目前,大多數針對其他任務或范式的后門攻擊仍然是基於毒害的。因此,除了特定任務的要求外,大多數方法都集中在(1)如何設計觸發器,(2)如何定義攻擊隱身性,(3)如何繞過潛在的防御。不同的任務和模式之間的巨大差異使得上述問題的答案完全不同。例如,在與圖像相關的任務中,隱形性可以定義為有毒樣本與其良性樣本之間的像素距離(如lp范數);然而,在自然語言處理(NLP)中,即使改變一個單詞或字符也可能使修改對人類可見,因為它可能導致語法或拼寫錯誤。因此,在與nlp相關的任務中,僅僅是有毒樣本和良性樣本之間的差異可能並不能作為一個良好的隱身指標。
除圖像或視頻分類外,自然語言處理是后門攻擊中最廣泛的研究領域。Dai等人討論了如何攻擊基於LSTM的情感分析。具體來說,他們提出了一種類似BadNets的方法,其中一個情感中立的句子被用作觸發器,並被隨機插入到一些良性訓練樣本中。Chen等人進一步研究了這個問題,提出了三種不同類型的觸發器(charlevel、word level和sentence level觸發器),並取得了不錯的性能。此外,Kurita等人證明,即使經過微調,情感分類、毒性檢測和垃圾郵件檢測也可以被攻擊。最近,Chan等人提出了基於條件對敵正則化自編碼的潛在空間攻擊NLP模型。除了與nlp相關的任務外,一些研究也揭示了對圖神經網絡(GNN)的后門威脅。通常,攻擊者指定的子圖被定義為觸發器,一旦被攻擊樣本中包含觸發器,受感染的GNN就會預測被攻擊圖的目標標簽。此外,還研究了對其他任務的后門威脅,如強化學習、說話人驗證和無線信號分類。
除了經典的訓練范式外,如何通過后門進行協作學習,尤其是聯邦學習,一直是人們關注的焦點。Bagdasaryan等人通過放大節點服務器的有毒梯度首次引入了針對聯邦學習的后門攻擊。之后,Bhagoji等人討論了隱身模型中毒后門攻擊,Xie等人提出了一種針對聯邦學習的分布式后門攻擊。最近,[49]在理論上證實,如果一個模型在溫和的聯合學習條件下容易受到對抗例子的攻擊,后門攻擊是不可避免的。此外,還討論了針對元聯合學習[50]和特征分割協作學習[51]的后門攻擊。相比之下,[52]、[53]、[54]、[55]、[56]、[57]等著作也質疑聯邦學習是否真的容易受到攻擊。除了合作學習外,在[7],[58],[16],[17],[59]中也討論了遷移學習這一重要學習范式的后門威脅。
E.后門攻擊好的用途
除了惡意目的外,如何正確地利用后門攻擊也得到了一些初步的探索。Adi等人利用后門攻擊來驗證模型所有權。他們提出通過后門嵌入對dnn進行水印。因此,模型中隱藏的后門可以用來檢查所有權,而水印過程仍然保持原有的模型功能。此外,Sommer等揭示了當用戶通過基於毒的后門攻擊要求刪除數據時,如何驗證服務器是否真的刪除了自己的數據。具體來說,在他們的驗證框架中,每個用戶使用特定於用戶的觸發器和目標標簽毒害其數據的一部分。因此,在服務器接受用戶數據培訓后,每個用戶都可以在服務器中留下唯一的跟蹤,用於刪除驗證,而對良性模型功能的影響可以忽略不計。Shan等人引入了trapdoor-enabled對抗性防御,防御者通過注入隱藏的后門來防止攻擊者發現模型中的自然弱點。這樣做的動機是,基於梯度下降的攻擊所產生的對抗擾動將會收斂到活板門模式附近,這很容易被防御者發現。Li等討論了如何保護基於后門攻擊的開源數據集。具體來說,他們將這個問題表述為確定數據集是否被用於訓練第三方模型。具體來說,他們提出了一種基於假設檢驗的驗證方法,基於良性樣本及其相應攻擊樣本的可疑第三方模型產生的后驗概率進行驗證。最近,dnn可解釋性和可解釋AI方法評估也采用了后門攻擊。
IV. 基於非投毒的后門攻擊
除了在數據收集時發生外,后門攻擊還可能發生在訓練過程的其他階段(如部署階段),這進一步揭示了后門攻擊的嚴重性。
A. Targeted Weight Perturbation
Dumford等人首先探索了基於無毒的攻擊,他們提出直接修改模型參數,而不是通過使用有毒樣本進行訓練。這項工作的主要任務是人臉識別,他們假設訓練樣本不能被攻擊者修改。攻擊者的目標是讓他們自己的臉被授予訪問權,盡管他們不是一個有效的用戶,同時確保網絡對所有其他輸入仍然正常運行。為了實現這一目標,他們采用了一種貪婪搜索方法,將不同的擾動應用於預先訓練的模型的權值。
B. Targeted Bit Trojan
Rakin等人並沒有簡單地通過基於搜索的方法修改模型的參數,而是展示了一種新的方法,稱為目標比特木馬(TBT),討論了如何在不經過訓練的情況下注入隱藏后門。TBT包含兩個主要過程,一是基於梯度的脆弱位確定(類似於[32]中提出的過程),二是采用row-hammer attack在主存中進行有目標位翻轉[66]。提出的方法取得了顯著的性能,作者能夠在CIFAR-10數據集[68]上用8800萬權重位中的84位翻轉誤導ResNet-18[67]。
C. TrojanNet
與以往直接將后門嵌入參數的方法不同,Guo等[69]提出了TrojanNet,通過一個秘密的權重排列激活被感染的dnn,對后門進行編碼。他們假設受感染的網絡使用了一個隱藏的后門軟件,當后門觸發器出現時,該軟件可以改變參數。訓練木馬網絡類似於多任務學習,雖然良性任務和惡意任務沒有共同特征。此外,作者還證明了判斷模型是否包含觸發隱藏后門的排列的決策問題是np -完全的,因此后門檢測幾乎是不可能的。
D. Attack with Trojan Module
最近,Tang等人[20]提出了一種新的基於無毒的后門攻擊,將經過訓練的惡意后門模塊(即子dnn)插入到目標模型中,而不是改變原始模型中的參數來嵌入隱藏的后門。由於觸發器只與惡意模塊相關聯,而惡意模塊可以與任何DNN相結合,因此該方法與模型無關。而且,由於攻擊者只需要對(小)木馬模塊進行一次訓練,與以往的攻擊方法相比,該方法大大降低了計算成本。在用戶采用第三方模型的場景中,它可以作為一個強大的基線。
V. 與相關領域的聯系
A. 后門攻擊和對抗性攻擊
對抗攻擊和(基於中毒的)后門攻擊有許多相似之處。首先,這兩種攻擊都試圖修改良性測試樣本,使模型行為失常。雖然干擾通常是針對對抗性攻擊的圖像指定的,但當對抗性攻擊具有普遍干擾(如[27],[70],[71])時,這些類型的攻擊具有類似的模式。因此,不熟悉后門攻擊的研究人員可能會質疑這一領域的研究意義。
雖然對抗性攻擊與后門攻擊有一定的相似之處,但也存在本質上的區別。(1)從攻擊者的能力來看,對抗性攻擊者能夠(在一定程度上)控制推理過程,但不能控制模型的訓練過程。而對於后門攻擊者,模型參數是可以修改的,而推理過程是無法控制的。(2)從被攻擊樣本的角度來看,擾動是已知的(即,非優化),而對抗性攻擊者需要通過基於模型輸出的優化過程獲得。對抗性攻擊中的這種優化需要多個查詢,因此很可能被檢測到。(3)它們的機制也有本質的區別。對抗性脆弱性是由於模型和人的行為差異造成的。相反,后門攻擊者利用dnn對非魯棒特征(如紋理)的過度學習能力。
最近,也有一些研究對抗性學習和后門學習之間的潛在聯系的早期工作。例如,Pang等揭示了數據中毒和對抗性攻擊之間存在有趣的“相互強化”效應,可以用來增強后門攻擊;翁等的經驗證明,對抗性魯棒性可能與后門魯棒性不一致。
B. 后門攻擊和數據投毒
數據中毒和(基於中毒的)后門攻擊在訓練階段有許多相似之處。一般來說,它們都是在訓練過程中引入有毒樣本來誤導推理過程中的模型。然而,他們也有顯著的差異。從攻擊者的目標來看,數據中毒的目的是降低良性檢測樣本的預測性能。相比之下,后門攻擊保持了對良性樣本的性能,類似於良性模型,只是將對被攻擊樣本(即帶有觸發器的良性測試樣本)的預測改變為目標標簽。從這個角度來看,數據投毒可以被視為某種程度上具有透明觸發器的“非針對性投毒的后門攻擊”。從隱身的角度來看,后門攻擊比數據中毒更惡毒。用戶可以通過本地驗證集下的評估來檢測數據中毒,但這種方法檢測后門攻擊的效益有限。
值得注意的是,現有的數據中毒作品由於它們的相似性,也啟發了后門學習的研究。例如,Hong等證明對數據中毒的防御在防御后門攻擊方面也有好處,如VI-A5節所示。

VI. 后門防御
為了減輕后門威脅,提出了幾種后門防御措施。現有的方法主要針對防范基於中毒的攻擊,可以分為兩大類,分別是經驗后門防御和認證后門防御。經驗后門防御是在對現有攻擊的一定理解基礎上提出的,在實踐中具有良好的性能,但其有效性沒有理論保障。而認證后門防御的有效性在理論上是在一定的假設條件下得到保證的,但在實踐中其有效性普遍弱於經驗防御。目前,認證防御都是基於隨機濾波[111],而經驗防御有多種方法。
A. Empirical Backdoor Defenses
直覺上,基於中毒的后門攻擊類似於用相應的鑰匙打開一扇門。也就是說,要保證后門攻擊成功,有三個必不可少的條件:(1)在(受感染)模型中有一個隱藏的后門;(2)在(受攻擊)樣本中包含觸發器;(3)觸發器和后門匹配,如圖4所示。因此,可以采用(1)觸發-后門不匹配、(2)后門消除和(3)觸發消除三種主要的防御范式來防御現有攻擊。對上述模式提出了不同類型的方法,表四總結了這些方法,並將進一步說明如下:

1) Preprocessing-based Defenses:
基於預處理的防御在原始推理過程之前引入預處理模塊,改變了被攻擊樣本中觸發器的模式。因此,修改后的觸發器不再匹配隱藏的后門,從而防止后門激活。
2) Model Reconstruction based Defenses:
與基於預處理的防御不同,基於模型重構的防御旨在去除被感染模型中的隱藏后門。因此,即使觸發器仍然包含在被攻擊的樣本中,預測仍然是無害的,因為后門已經被刪除了。
3) Trigger Synthesis based Defenses:
基於觸發器合成的防御除了直接消除隱藏后門外,還提出先合成后門觸發器,然后通過抑制合成觸發器的影響來消除隱藏后門。這種防御與第二階段基於模型重構的防御有一定的相似之處。
4) Model Diagnosis based Defenses:
基於模型診斷的防御通過訓練后的元分類器判斷所提供的模型是否被感染,並拒絕部署被感染的模型。由於只使用良性模型進行部署,因此自然消除了隱藏的后門。
5) Poison Suppression based Defenses:
基於毒素抑制的防御在訓練過程中降低了中毒樣本的有效性,以防止隱藏后門的產生。
6) Training Sample Filtering based Defenses:
基於訓練樣本過濾的防御旨在區分良性樣本和有毒樣本。在訓練過程中只使用良性樣本或純化的有毒樣本,從源頭上消除了后門。
7) Testing Sample Filtering based Defenses:
與基於訓練樣本濾波的防御方法類似,基於測試樣本濾波的防御方法也旨在區分惡意樣本和良性樣本。但與以往的方法相比,在推理階段采用了基於測試樣本濾波的方法,而不是訓練階段。只有良性或純化的攻擊樣本將被預測,這防止后門激活通過刪除觸發器。
B.認證后門防御
盡管已經提出了多種經驗后門防御方法,並且對以前的攻擊取得了不錯的性能,但幾乎所有這些方法都被更強的自適應攻擊所繞過。為了終止這種貓鼠游戲,Wang等人在基於隨機平滑技術的認證后門攻擊防御方面邁出了第一步。隨機平滑最初是為了證明針對對抗性例子的魯棒性,其中平滑函數是通過在數據向量中添加隨機噪聲來從基函數構建,以證明分類器在一定條件下的魯棒性。Wang等人將分類器的整個訓練過程作為基函數,推廣經典隨機平滑,防范后門攻擊。Weber等人證明了直接應用隨機平滑,不會提供高認證的魯棒邊界。相反,他們提出了一個統一的框架,檢驗了不同的平滑噪聲分布,並提供了魯棒性界限的緊密性分析。
C.評價指標
類似於檢測的經驗防御的評估度量。基於模型診斷的防御和基於測試樣本過濾的防御都是類似檢測的方法,其主要目標是識別(不可信的)對象(如經過訓練的DNN或測試圖像)是否具有惡意。這本質上是一個二元分類問題。通常采用(1)精度、(2)查全率和(3)F1score三個指標來評價他們的表現。准確率、回憶率和f1得分越高,攻擊表現越好。
非檢測類經驗防御的評估度量。除了類檢測的經驗防御外,其他類型的經驗防御,包括基於預處理的防御、基於模型重構的防御、基於觸發合成的防御、基於毒素抑制的防御、基於訓練樣本過濾的防御,都是非類檢測的防御。他們的主要目標是對良性樣本和受攻擊樣本進行正確的預測。因此,也采用良性准確率和攻擊成功率(定義見第II-A節)進行評價。特別是,雖然檢測過程也涉及到基於訓練樣本過濾的防御,但上述三個指標(即精度、召回率和F1score)不適合進行評估。這些防御可能會嘗試丟棄盡可能多的有毒樣本,以減少在過濾后的數據集上創建隱藏后門的可能性,甚至犧牲某些良性樣本。
認證后門防御的評估指標。如第VI-B節所述,現有認證后門防御均采用隨機平滑技術。這些方法可以提供一個認證半徑,在這個認證半徑下,球內的所有擾動都不會改變模型在某些假設下的預測。人們通常使用(1)良性准確率、(2)認證率和(3)認證准確率作為評價指標[24]、[25]。具體來說,良性准確率表明(平滑的)分類器在分類良性樣本時的表現如何;認證率是指在半徑大於認證半徑的情況下,能夠認證的樣品的比例;認證精度是指在半徑大於認證半徑的情況下,測試集被正確分類並被認證為魯棒性的部分。良性准確率、認證率和認證准確率越高,攻擊性能越好。
VII. 基准數據集

與對抗性學習相似,現有的相關文獻大多集中在圖像識別任務上。在本節中,我們總結了所有在表五的相關文獻中至少使用過兩次的基准數據集。這些基准數據集可以分為三大類,分別是自然圖像識別、交通標志識別和人臉識別。第一種類型的數據集是圖像分類領域的經典數據集,而第二種和第三種數據集是需要嚴格安全保證的任務。我們建議未來的工作應該評估這些數據集,以促進比較和確保公平。
VIII. 未來發展方向展望
A. Trigger Design
基於中毒的后門攻擊的有效性和效率與其觸發模式密切相關。然而,現有方法的觸發是在啟發式(如普遍擾動設計),甚至非優化的方式設計的。如何更好地優化觸發模式仍然是一個重要的開放問題。此外,觸發器設計中只考慮了有效性和隱形性,其他標准,如最小化必要中毒比例等也值得進一步探索。
B. Semantic and Physical Backdoor Attacks
如III-C節所述,語義攻擊和物理攻擊在實際場景中對人工智能系統的威脅更為嚴重,但相對於其他類型的后門攻擊,它們的研究還遠遠落后。對這兩種攻擊進行更深入的研究以獲得更好的理解,將是在實踐中減輕后門威脅的重要步驟。
C. Attacks Towards Other Tasks
后門攻擊的成功很大程度上是由於根據目標任務的特點設計了特定的觸發器。例如,在視覺任務中,觸發器的視覺不可見性是保證攻擊隱身的關鍵標准之一。但是,在不同的任務中,后門觸發器的設計可能有很大的不同(例如,在自然語言處理中攻擊任務時,將觸發器隱藏在句子中,與將觸發器隱藏在圖像中有很大的不同)。因此,研究任務指定后門攻擊具有重要意義。現有的后門攻擊主要針對計算機視覺任務,特別是圖像分類任務。然而,對其他任務(如推薦系統、語音識別和自然語言處理)的研究還沒有得到很好的研究。
D. Effective and Efficient Defenses
盡管已經提出了許多類型的實證后門防御(見第六節),但幾乎所有這些都可以被隨后的自適應攻擊所繞過。此外,除了基於預處理的防御外,計算成本高也是現有防御的一個普遍缺點。為了跟上后門攻擊的快速發展步伐,需要更加努力地設計有效的防御方法(例如,分析現有攻擊的弱點,如何降低防御的計算成本)。此外,認證后門防御是重要的,但目前研究很少,值得更多的探索。
E. Mechanism Exploration
后門生成原理和后門觸發器的激活機制是后門學習領域的聖杯問題。例如,為什么存在后門,以及當后門觸發器出現時,模型內部發生了什么,在現有的工作中沒有仔細研究。后門學習的內在機制應該成為引導后門攻擊和防御設計的關鍵。
