1. 背景
機器學習在我們的生活中有許多應用,包括計算機視覺,網絡入侵檢測等。但是 通過這些模型容易受到攻擊。攻擊者可以在訓練數據中投放惡意樣本來破壞學習過程。最近研究表明,通過最優攻擊策略可以破壞機器學習的性能。
本文提出一中基於離群點檢測的防御機制來減輕這些最優投毒攻擊的影響。之前提出的提出的防御策略依賴於測量每個樣本對算法性能的影響。盡管檢測到一些投毒攻擊是有效的,但是在訓練數據集中測試每個樣本的影響通常是非常復雜的,因為它需要對集合中的每個樣本重新訓練和評估算法的性能。本文方法:提出了一種不同的投毒攻擊對抗實例檢測方法
本文主要貢獻如下:
- 提出了一種基於數據預濾波和離群點檢測的線性分類器投毒攻擊的有效算法。這種防御策略是不可知的具體參數的實際學習算法,為增強實際機器學習系統的安全性以抵御投毒攻擊提供了一種有用的方法。
- 在真實數據集上進行的實驗評估,顯示了我們提出的防御方法的有效性,包括特征數與訓練點數相比較高的示例。實驗結果表明,我們的對策大大減輕了論文[16]-[18]所述“最佳”投毒策略的影響。
- 我們的實驗表明,更簡單的約束攻擊,如標簽翻轉,更難檢測。我們也提供了一個經驗比較的效果,這是第一次系統地研究離群點檢測的好處,以減輕數據中毒對機器學習算法的影響。
2. 最佳投毒攻擊
在投毒攻擊中,根據攻擊者定義的目標,在學習者的訓練數據集中注入對抗實例來影響學習算法。典型的對抗性例子是為了最大化學習算法的誤差而設計的,這里只考慮二元線性分類問題。
2.1 問題描述
假設分類器是由w參數化的,可以將攻擊者的目標表示為如下的雙層優化問題:

可以利用梯度上升策略得到優化問題的一個局部最大值,只要損失函數和學習算法是連續可微的,就可以將上述問題的內部優化問題替換為對應的一階最優性條件:



2.1線性回歸分類:套索投毒
學習此分類器參數最簡單的方法是最小化訓練集上的均方誤差(MSE)。學習算法的損失函數可以表示為:



3.防御方法
由於許多應用程序收集了大量的數據,因此訓練數據的保存並不總是可能的,中毒攻擊是一種嚴重的威脅。然而,一小部分數據的精確處理是可以實現的。在這些背景下,我們建議使用基於距離的異常檢測來檢測對抗訓練的例子,使用一小部分可信數據點。在這些背景下,我們建議使用基於距離的異常檢測來檢測對抗訓練的例子,使用一小部分可信數據點。

4.實驗結果
在實驗部分我們采用了mnist數據集和Spambse數據集,這兩個數據集都是網上公開的數據集,具有普遍性,能更能證明我們的防御方法。
4.1Mnist數據集
在這種情況下,我們選擇正則化參數λ通過一個5倍交叉驗證程序。 當λ被選擇與數據相關的過程,作為交叉驗證,它的值也受到中毒點的增加的影響。在這種情況下,由於訓練集相對較小,與特征數量相比,中毒攻擊更加有效。 誤差從干凈數據集中的0.037提高到0.391 增加20%的中毒點,即。 誤差增加10倍以上。 在這種情況下,當不進行辯護時,誤差的標准偏差相當大。


參考文獻:
[1]Detection of Adversarial Training Examples in Poisoning Attacks through Anomaly Detection