機器學習中安全與隱私問題(對抗性攻擊)


  近幾年,機器學習異常火爆,可以用來解決各種各樣的問題,但卻很少有人意識到機器學習本身也容易受到攻擊,終於Ian Goodfellow和Papernot首次將機器學習的攻擊提出,並且做了很多非常重要的研究,這里給出這二位大牛的博客的翻譯,有興趣的朋友可以關注一下,覺得還是很有意思的研究。本文也是安全方面的學習,有興趣的希望可以一起討論學習~~

轉載請注明出處!

(一)背景

  直到幾年前,機器學習算法在許多有意義的任務上都沒有很好地發揮作用,比如識別物體或翻譯。因此,當機器學習算法沒能做正確的事情時,這是規則,而不是例外。今天,機器學習算法已經進入了下一個發展階段:當呈現自然產生的輸入時,它們可以比人類表現得更好。機器學習還沒有達到真正的人類水平,因為當面對一個微不足道的對手時,大多數機器學習算法都失敗了。換句話說,我們已經達到了機器學習的目的,但很容易被打破。

  這篇博客文章介紹了我們新的Clever Hans博客,我們將討論攻擊者破壞機器學習算法的各種方法。從學術角度講,我們的話題是機器學習的安全性和保密性。這個博客是由Lan Goodfellow和 Nicolas Papernot共同撰寫的。Lan是OpenAI的一名研究科學家,也是賓夕法尼亞州立大學安全研究的博士生。我們共同創建了開源庫—— cleverhans,用來對機器學習模型的脆弱性進行基准測試。這個博客為我們提供了一種非正式的分享關於機器學習安全和隱私的想法,這些想法對於傳統的學術出版來說還不夠具體,還可以分享與cleverhans 庫相關的新聞和更新。

 (二)機器學習安全與隱私

  一個安全的系統是可以依賴的,並且可以保證像預期的一樣運行。當我們試圖為系統的行為提供擔保時,我們會想到一個特定的威脅模型。威脅模型是一組正式定義的關於任何攻擊者的能力和目標的假設,這些攻擊者可能希望系統的行為不正常。

到目前為止,大多數機器學習都是用一個非常弱的威脅模型來開發的,在這個模型中沒有對手。機器學習系統的設計是為了在面對自然時表現出正確的行為。今天,我們開始設計機器學習系統,即使面對一個惡意的人或一個惡意的機器學習對手,我們也能做出正確的行為。例如,機器學習系統可能在模型被訓練(學習階段)或模型進行預測(推理階段)時被對手攻擊。對手也有不同程度的能力,可能包括對模型內部結構和參數的訪問,或者對模型輸入和輸出的訪問。

為了破壞機器學習模型,攻擊者可以破壞其機密性、完整性或可用性。這些性質構成了CIA(confidentialityintegrity, or availability)的安全模型。

  • 保密性:機器學習系統必須保證未得到授權的用戶無法接觸到信息。在實際操作中,把保密性作為隱私性來考慮會容易得多,就是說模型不可以泄露敏感數據。比如假設研究員們設計了一個可以檢查病人病歷、給病人做診斷的機器學習模型,這樣的模型可以對醫生的工作起到很大的幫助,但是必須要保證持有惡意的人沒辦法分析這個模型,也沒辦法把用來訓練模型的病人數據恢復出來。
  • 完整性:如果攻擊者可以破壞模型的完整性,那么模型的預測結果就可能會偏離預期。比如垃圾郵件會把自己偽裝成正常郵件的樣子,造成垃圾郵件識別器的誤識別。
  • 可用性:系統的可用性也可以成為攻擊目標。比如,如果攻擊者把一個非常難以識別的東西放在車輛會經過的路邊,就有可能迫使一輛自動駕駛汽車進入安全保護模式,然后停車在路邊。

 (三)機器學習攻擊方法

  當然,到目前為止,所有這些都是假設的。到目前為止,安全研究人員已經證明了哪些類型的攻擊?本博客的后續文章將會給出更多的例子,但是我們從三個方面開始:在訓練時的完整性攻擊,在推理過程中的完整性攻擊,以及隱私攻擊。

3.1 在訓練集中下毒在訓練時對模型進行完整性攻擊

  攻擊者可以通過修改現有訓練數據、或者給訓練集增加額外數據的方法來對訓練過程的完整性造成影響。比如假設莫里亞蒂教授要給福爾摩斯栽贓一個罪名,他就可以讓一個沒被懷疑的同伙送給福爾摩斯一雙獨特、華麗的靴子。當福爾摩斯穿着這雙靴子在他經常協助破案的警察面前出現過以后,這些警察就會把這雙靴子和他聯系起來。接下來莫里亞蒂教授就可以穿一雙同樣的靴子去犯罪,留下的腳印會讓福爾摩斯成為被懷疑的對象。

干擾機器學習模型的訓練過程,體現的攻擊策略是當用於生產時讓機器學習模型出現更多錯誤預測。具體來說,這樣的方法可以在支持向量機(SVM)的訓練集中下毒。由於算法中預測誤差是以損失函數的凸點衡量的,這就讓攻擊者有機會找到對推理表現影響最大的一組點進行攻擊[BNL12]。即便在更復雜的模型中也有可能找到高效的攻擊點,深度神經網絡就是這樣,只要它們會用到凸優化。

3.2 用對抗性的樣本讓模型出錯 - 在推理時進行完整性攻擊

  實際上,讓模型出錯是非常簡單的一件事情,以至於攻擊者都沒必要花功夫在訓練機器學習模型參數的訓練集中下毒。他們只要在推理階段(模型訓練完成之后)的輸入上動動手腳,就可以立即讓模型得出錯誤的結果。

要找到能讓模型做出錯誤預測的干擾,有一種常用方法是計算對抗性樣本 [SZS13].。它們帶有的干擾通常很微小,人類很難發現,但它們卻能成功地讓模型產生錯誤的預測。比如下面這張圖 [GSS14],用機器學習模型識別最左側的圖像,可以正確識別出來這是一只熊貓。但是對這張圖像增加了中間所示的噪聲之后得到的右側圖像,就會被模型識別成一只長臂猿(而且置信度還非常高)。

 

  值得注意的是,雖然人類無法用肉眼分辨,但是圖像中施加的干擾已經足以改變模型的預測結果。確實,這種干擾是在輸入領域中通過計算最小的特定模得到的,同時它還能增大模型的預測誤差。它可以有效地把本來可以正確分類的圖像移過模型判定區域的邊界,從而成為另一種分類。下面這張圖就是對於能分出兩個類別的分類器,出現這種現象時候的示意。

 

 

  許多基於對抗性樣本的攻擊需要攻擊者知道機器學習模型中的參數,才能把所需的干擾看作一個優化問題計算出來 。另一方面,也有一些后續研究考慮了更現實的威脅模型,這種模型里攻擊者只能跟模型互動,給模型提供輸入以后觀察它的輸出。舉例來講,這種狀況可以發生在攻擊者想要設計出能騙過機器學習評分系統從而得到高排名的網站頁面,或者設計出能騙過垃圾郵件篩選器的垃圾郵件的時候。在這些黑盒情境中,機器學習模型的工作方式可以說像神諭一樣。發起攻擊的策略首先對神諭發起詢問,對模型的判定區域邊界做出一個估計。這樣的估計就成為了一個替代模型,然后利用這個替代模型來制作會被真正的模型分類錯誤的對抗性樣本 [PMG16]。這樣的攻擊也展現出了對抗性樣本的可遷移性:用來解決同樣的機器學習任務的不同的模型,即便模型與模型之間的架構或者訓練數據不一樣,對抗性樣本還是會被不同的模型同時誤判[SZS13]。

3.3 機器學習中的隱私問題

  機器學習中的隱私問題就不需要攻擊者也能講明白了。例如說,機器學習算法缺乏公平性和透明性的問題已經引起領域內越來越多人的擔心。事實上,已經有人指出,訓練數據中帶有的社會偏見會導致最終訓練完成后的預測模型也帶有這些偏見。下面重點說一說在有攻擊者情況下的隱私問題。

  攻擊者的目的通常是恢復一部分訓練機器學習模型所用的數據,或者通過觀察模型的預測來推斷用戶的某些敏感信息。舉例來說,智能手機的虛擬鍵盤就可以通過學習用戶的輸入習慣,達到更好的預測-自動完成效果。但是,某一個用戶的輸入習慣下的特定字符序列不應該也出現在別的手機屏幕上,除非已經有一個比例足夠大的用戶群也會打同樣的一串字符。在這樣的情況下,隱私攻擊會主要在推理階段發揮作用,不過要緩解這個問題的話,一般都需要在學習算法中增加一些隨機性[CMS11]。

  比如,攻擊者有可能會想辦法進行成員推測查詢:想要知道模型訓練中有沒有使用某個特定的訓練點。近期就有一篇論文在深度神經網絡場景下詳細討論了這個問題。與制作對抗性樣本時對梯度的用法相反[SSS16](這可以改變模型對正確答案的置信度),成員推測攻擊會沿着梯度方向尋找分類置信度非常高的點。已經部署的模型中也還可以獲得有關訓練數據的更多總體統計信息[AMS15]。

(四)總結

  現在是2016年12月。目前,我們知道許多攻擊機器學習模式的方法,而且很少有防御的方法。我們希望到2017年12月,我們將有更有效的防御措施。這個博客的目標是推動機器學習安全和隱私的研究狀態,通過記錄他們所發生的進展,在涉及到這些話題的研究人員的社區內引發討論,並鼓勵新一代的研究人員加入這個社區。

References

[AMS15] Ateniese, G., Mancini, L. V., Spognardi, A., Villani, A., Vitali, D., & Felici, G. (2015). Hacking smart machines with smarter ones: How to extract meaningful data from machine learning classifiers. International Journal of Security and Networks, 10(3), 137-150.

[BS16] Barocas, S., & Selbst, A. D. (2016). Big data’s disparate impact. California Law Review, 104.

[BNL12] Biggio, B., Nelson, B., & Laskov, P. (2012). Poisoning attacks against support vector machines. arXiv preprint arXiv:1206.6389.

[CMS11] Chaudhuri, K., Monteleoni, C., & Sarwate, A. D. (2011). Differentially private empirical risk minimization. Journal of Machine Learning Research, 12(Mar), 1069-1109.

[GSS03] Garfinkel, S., Spafford, G., & Schwartz, A. (2003). Practical UNIX and Internet security. O’Reilly Media, Inc.

[GSS14] Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.

[PMG16] Papernot, N., McDaniel, P., Goodfellow, I., Jha, S., Berkay Celik, Z., & Swami, A. (2016). Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples. arXiv preprint arXiv:1602.02697.

[PMS16] Papernot, N., McDaniel, P., Sinha, A., & Wellman, M. (2016). Towards the Science of Security and Privacy in Machine Learning. arXiv preprint arXiv:1611.03814.

[SSS16] Shokri, R., Stronati, M., & Shmatikov, V. (2016). Membership Inference Attacks against Machine Learning Models. arXiv preprint arXiv:1610.05820.

[SZS13] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., & Fergus, R. (2013). Intriguing properties of neural networks. arXiv preprint arXiv:1312.6199.

 

原文鏈接:http://www.cleverhans.io/security/privacy/ml/2016/12/15/breaking-things-is-easy.html

轉載請注明出處!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM