Paper:
Practical Black-Box Attacks against Machine Learning
一、介紹
概況:Ian Goodfellow大神研究如何在不知道model內部結構和訓練數據集的情況下(黑盒),產生adversarial example誤導DNN分類器。
成果:
1)需要一個“人造”數據集,用於訓練“替代”model,如何產生?
2)對不同DNN攻擊
3)減少query的方法,在訓練“替代”model時
4)為什么可以用“替代”model,附錄B中解釋
二、威脅模型
初始sample + 擾動,使得分類器結果不等於正確結果(出錯)。問題轉化為:優化找到最小擾動。
三、黑箱策略
1. “替代”model訓練
減少query:使用“Jacobian-based Dataset Augmentation”
即啟發式:由一組初始數據,然后根據目標model輸出變化的方向,產生其余數據。
1.1model的結構
論文指出:類型、層數、數量對攻擊成功與否影響較小;若要提高准確率,需研究此問題。
遍歷目標model整個輸入空間從而獲得輸出不現實。
訓練“替代”model的算法
1.2 產生adversarial example
fast gradient sign method
Ian J Goodfellow, et al. Explaining and harnessing adversarial
examples. In Proceedings of the International Conference on
Learning Representations, 2015.