SIGMA : Strengthening IDS with GAN and Metaheuristics Attacks
入侵檢測系統(IDS)是網絡管理員識別惡意流量和網絡攻擊的重要網絡安全工具。隨着深度學習等機器學習技術的發展,越來越多的入侵檢測系統采用機器學習算法來快速檢測攻擊。然而,這些系統在面對以前看不到的攻擊類型時缺乏健壯性。隨着新攻擊的不斷增多,特別是針對物聯網設備的攻擊,擁有一個能夠發現異常和新攻擊的健壯的入侵檢測系統變得非常必要。本文探討了利用生成對抗模型提高基於機器學習的入侵檢測系統魯棒性的可能性。更具體地說,我們提出了一種名為SIGMA的新方法,該方法利用對抗性示例來增強IDS抵御新類型攻擊的能力。SIGMA使用生成性對抗網絡(GAN)和元啟發式算法,迭代生成對抗性示例,並使用它重新訓練基於機器學習的入侵檢測系統,直到檢測率收斂(即直到檢測系統不再改進)。一輪改進包括一個生成階段,在這個階段中,我們使用GANs和元啟發式來生成實例;在評估階段,我們計算這些新生成的攻擊的檢測率;在訓練階段,我們用這些攻擊來訓練身份證。我們評估了四種標准機器學習分類算法作為入侵檢測系統的SIGMA方法,將GAN與混合局部搜索和遺傳算法相結合,生成新的攻擊數據集。結果表明,SIGMA能夠成功地對不同的基於機器學習的入侵檢測系統產生對抗性攻擊。另外,使用SIGMA,我們可以在僅僅經過兩輪改進之后,將IDS的性能提高到100%。
https://arxiv.org/pdf/1912.09303.pdf
這個是2020的文章,防御的!
下面這個攻擊的!
Generative Adversarial Networks For Launching and Thwarting Adversarial Attacks on NIDS論文閱讀
參考文獻:Generative Adversarial Networks For Launching and Thwarting Adversarial Attacks on Network Intrusion Detection Systems
1、摘要
提出了一種使用生成對抗網絡(GAN)的對抗式ML攻擊,該攻擊可以成功規避基於ML的IDS。另外還證明了GAN可用於強化IDS增強魯棒性。
本文的主要貢獻是: •我們建議並驗證對黑盒IDS的基於GAN的對抗式ML攻擊。我們提出的基於GAN的攻擊是第一種可以成功避開IDS並確保保留網絡流量功能行為的對抗性攻擊。 •我們提出了基於GAN的防御機制訓練機制,該機制可提高IDS抵抗對抗性擾動的魯棒性;在攻擊和防御過程中,僅通過更改網絡流量的非功能特性來確保網絡流量的功能行為。 本文的其余部分安排如下。在下一部分中,我們將簡要介紹相關研究,重點是使用GAN為IDS生成對抗性示例。我們在第三部分中討論了一些預備知識,其中提供了問題表述,假定的威脅模型,考慮的數據集,以及在發起對抗性攻擊時保留功能行為的約束。第四節介紹了我們基於GAN的對抗攻擊方法,並介紹了我們的攻擊技術的結果。第五節描述了針對對抗示例的防御機制的詳細信息,並着重指出,針對防御的防御機制提高了IDS對抗對抗性干擾的魯棒性。最后,得出結論。
2、研究內容
A.問題定義
假設X是具有n個特征的特征集,且(xi,yi)是一個樣本,其中xi∈X是合法的網絡流量樣本,而yi∈Y是真實的類別標簽,其中Y表示類別的數量。 IDS旨在學習分類器f:X-→Y,它是傳入網絡流量的真實表示。對手的目標是生成不易察覺的對抗性擾動δ,當將其添加到合法樣本xi中時會構成一個對抗性示例x *,並被分類為f(xi +δ)̸= yi。我們通過使用GAN構造x *來成功逃避黑匣子IDS,從而提供了一個框架。我們還提出了基於GAN的防御措施,以提高IDS中針對對抗示例使用的ML / DL技術的魯棒性。
B.威脅模型
1)對抗能力:在本文中,我們假設黑匣子設置,其中對手只能向IDS查詢相關標簽。我們進一步假設對手通過同時查詢IDS來准備一個預言機。對手無法訪問有關IDS的其余信息。
2)對抗目標:對抗目標是生成可以逃避IDS檢測的對抗樣本
C.數據集
我們已經在廣泛用於基准IDS性能的KDD99數據集上評估了基於GAN的對抗性示例。數據集由五類組成,即:正常,探測,DoS,U2R和R2L,代表IDS評估的不同類型的入侵流量。數據集中的每個記錄包含41個要素,其中34個是連續要素,7個是分類要素。一鍵表示用於對分類特征進行編碼。下表中提供了數據集功能的詳細信息及其與攻擊類型的關系。
D.保持功能行為的約束
對抗性ML實例的一個非常重要的約束是保留受干擾實例的功能行為。對於計算機視覺,對手必須保持對抗示例的外觀,對於語言處理示例,對手必須在創建對抗文本示例時保留語義含義,對於惡意軟件和PE對手,必須確保對抗干擾不會更改惡意軟件或PE的可執行性。對於網絡流量功能,對手必須確保對抗干擾不會使網絡流量功能無效。
為了完全理解網絡流量功能(尤其是網絡攻擊流量)功能行為的保留,我們需要退后一步,了解tcpdump記錄中的特征提取方法。從tcpdump記錄中對IDS進行特征提取是一種四層特征提取方案。該方案基於網絡流量中攻擊的性質。 特征提取的四個步驟如下: 1)首先,從網絡流量中提取內在特征(intrinsic features)。這些特征對於任何網絡流量有效性都是必需的。這些特征的任何更改都將使網絡流量無效。 2)其次,提取基於時間的特征。這些特征提供了正常和惡意流量的基於時間的特征。這些特征以及固有功能對於識別嗅探和DoS攻擊是必需的。 U2R和R2L攻擊不需要基於時間的網絡流量統計,因為這些攻擊嵌入在數據包的內容中。因此,網絡流量特征中基於時間的特征的任何更改都將使網絡流量特征無效。 3)第三,從網絡流量中提取了固有的和基於時間的特征之后,需要從流量中提取內容特征,以檢測U2R和R2L攻擊。探測和DoS攻擊檢測不需要內容功能。這些特征的任何更改都不會使探測和DoS攻擊無效。在本文中,我們使用了內容特征來生成對抗樣本。 4)最后,提取基於主機的流量特征,這些特征以及固有和基於時間的特征對於慢速探針攻擊檢測是必需的。這些功能的任何更改不僅會更改基於主機的信息,還會使流量無效。
我們在下表中提供了特征集的分類法及其與攻擊流量的功能行為的關系。
我們基於GAN的對抗性攻擊只會對內容特征增加干擾,以確保功能行為得以保留。這也突出表明,要進行對抗性攻擊,攻擊者必須具有完整的領域知識。這也是許多對抗性攻擊(例如FGSM,BIM,JSMA)不適用於網絡流量的原因,因為這些攻擊無法確保保留網絡流量功能的功能行為。 下圖以嗅探攻擊為例顯示了如何保留網絡流量的功能,只改變了基於內容的特征。
3、基於GAN的攻擊方法
A.使用GAN的對抗攻擊
GAN由兩個神經網絡組成,即:生成器G和鑒別器D。提供輸入示例X = {x1,x2,...,xn},G在分布p(x)下生成偽造示例來欺騙D,同時D要鑒別X的正常示例和G的偽造示例。此學習過程被表述為G之間的極大極小博弈和D。描述此對抗過程的優化函數是:
其中p(z)是潛在隨機變量z的分布,通常定義為已知的簡單分布,例如N(0,I)或U(a,b)。通過采取其他漸變步驟來執行G和D訓練,以確保G可以學會欺騙D和D可以學會檢測假冒示例。
x是正樣本,z是輸入,g(z)是生成樣本,D是分類器,g是生成器,E(p(x))log(D(x))是說,分類器把真樣本分為正例的期望;E(p(z))log(1-g(z))是說分類器把生成樣本分為負例的期望。 現在分類器希望把這個期望足夠高,也就是分類器希望能夠分開生成樣本和真樣本。 而生成器希望在分類器最高的情況下使這個期望最低。
下圖描繪了用於生成對抗樣本的總體架構。
GAN框架由三個組件組成,即:生成器網絡G,鑒別器網絡D和基於黑盒ML / DL的分類器f。輸入xi∈X分為兩部分;即功能和非功能屬性。該划分是基於對網絡流量功能行為的貢獻而進行的。 G將數據的非功能屬性作為輸入,生成輸入的非功能屬性大小的擾動δ。然后,我們將原始流量x的功能部分與生成的δ進行級聯,該級聯表示為x∥G(x)。合並后的樣本將被饋送到D,后者負責對原始樣本和偽造樣本進行分類。 D被訓練來模仿IDS的行為。通過向IDS和鑒別器同時提供惡意流量和正常流量來實現此目的,並將IDS的預測用作D訓練的標簽。與D相反,G專門針對惡意數據M進行訓練來欺騙D(IDS的代理)。下面兩個等式提供了G和D的對抗損失:
G的目標是生成與正常流量x不能區分的已知為惡意的偽造示例,而D的目標是區分合法和偽造的示例。在訓練G時,D被認為是固定且可逆的。提議的GAN框架中使用的完整損失函數為:
GAN的訓練過程為:
所用GAN架構及其超參數的詳細信息在下表中表示:
B.基於GAN的對抗攻擊的結果
所提出的基於GAN的對抗攻擊用於構造Probe類的對抗樣本。這些樣本可以欺騙基於ML / DL的黑盒IDS,他們認為將Probe攻擊流量視為Normal類流量。我們僅考慮了普通和探測類網絡流量之間的分類,但是提供的框架也適用於其他網絡流量類。
為了證明基於GAN的對抗攻擊的有效性,我們選擇執行一系列實驗,其中我們使用了DNN,邏輯回歸(LR),支持向量機(SVM),k最近鄰(KNN) ,朴素貝葉斯(NB),隨機森林(RF),決策樹(DT)和梯度增強(GB)技術作為黑盒IDS。由於提出的GAN框架一次只生成一個類的對抗性示例,因此我們僅使用GAN框架來生成Probe類的對抗性示例。我們使用准確性,准確性,召回率和F1分數作為逃避攻擊的評估參數。 下圖比較了攻擊前和攻擊后基於黑盒ML / DL的IDS的准確性,(以前的攻擊方法未顯示為比較的基准,因為它們不適用於我們的環境,與我們的方法不同,它們無法確保保留網絡功能行為)結果突出顯示了基於GAN的對抗攻擊在確保功能的同時能繞過NIDS的分類。分類器的性能下降表明,對抗性示例正在增加誤報的數量,並迫使ML / DL分類器學習錯誤的決策邊界。
4、基於GAN的防御方法
在本節中,我們討論IDS如何通過使用生成型ML模型選擇對抗訓練來防御對抗攻擊。
A.在IDS中使用生成模型進行對抗訓練
對抗訓練是一種在訓練數據中注入對抗樣本的方法,以確保ML / DL模型學習可能的對抗擾動。這種訓練ML / DL模型的新方法將通過訓練原始和對抗性的示例來提高ML / DL模型的魯棒性和通用性。據我們所知,尚未在基於ML / DL的IDS中探索對抗訓練來對抗對抗示例。對抗訓練方法的一個缺點是,有一定的針對性,NIDS仍將被未知的對抗擾動所規避。 為了克服這個缺點,我們提出了一種基於GAN的對抗訓練方法,如下圖所示,用於在黑盒IDS中對ML / DL模型進行對抗性訓練,以防御對抗性ML攻擊。
我們提出的基於GAN的對抗性防御工作包括在基於ML / DL的IDS管道中包括一個生成模型,而IDS模型不僅針對輸入數據進行訓練,而且還針對生成模型所生成的對抗樣本進行訓練。盡管此過程類似於對抗訓練,但我們的方法有所不同,因為在IDS中使用GAN等生成模型會引入針對已知和未知對抗擾動的魯棒性。
B.基於GAN的對抗訓練的結果
下表在DNN,RF,LR,NB,DT,KNN,SVM和GB方案上基於GAN的擬議攻擊性和防御框架的性能評估(評估參數均為4%),表中的結果突出表明,針對對抗性網絡流量的防御措施已提高了基於ML / DL的IDS的魯棒性。表IV中的准確性,召回率和F1分數有了明顯改善,表明與基於ML / DL的IDS相關的誤報問題也已通過利用針對網絡流量特征的對抗性干擾的擬議GAN對抗性防御來解決。
下圖提供了在對抗性ML攻擊之前,攻擊之后,對抗性訓練之后以及基於GAN的對抗性訓練之后,不同ML / DL技術的准確性之間的比較。從圖中可以很明顯地看出,所提出的基於GAN的對抗訓練比簡單的對抗訓練過程要好。通過仔細選擇IDS中GAN的超參數,可以進一步提高基於GAN的對抗訓練的魯棒性。我們還注意到了一個獨特的結果,即一旦我們進行了基於GAN的對抗訓練,NB就能顯着改善對抗對抗的干擾。將GAN納入其培訓渠道后,黑盒IDS性能的准確性有了明顯提高,也加強了我們使用GAN抵御對抗性干擾的決策。
5、論文總結
1、對抗樣本生成 核心思路是根據攻擊類型,選出可變特征和不可變特征,使用GAN生成可變特征的部分對抗特征,然后和不可變特征拼接作為最終的對抗特征。在KDD99數據集上進行了實驗,以嗅探攻擊類型為例,生成了嗅探對抗樣本,在8種ML-NIDS上進行了實驗,實驗結果表明可以降低ML-NIDS的分類准確度。
2、提高NIDS魯棒性 將生成器生成的對抗樣本也放入IDS的訓練過程中。
