關於《Differentially private empirical risk minimization》論文分析報告


Differentially private empirical risk minimization——分析報告

組員:岑鵬 吳易佳 秦紅梅

2020.3.12

 


1. 背景

  隨着電子數據庫中的個人信息的大量增加,例如病歷,財務記錄,網絡搜索歷史記錄和社交網絡數據等,互聯網進入了大數據時代,為了利用其中海量的有價值的數據信息,不可避免地需要對數據進行收集和分析,使得隱私泄露問題變得越來越嚴重,數據隱私保護已經成為目前關注的焦點。數據挖掘以及信息安全技術的不斷發展,對數據進行簡單地匿名化或者公布敏感數據集的統計信息不足以保護隱私,而隱私計算和數據加密技術也不能滿足大數據隱私保護的要求,2006年DWork針對統計數據庫的隱私泄露問題提出了差分隱私技術,其模型建立在嚴格的數學基礎之上,能夠抵御合成攻擊,並保證數據的極大可用性。目前差分隱私已被廣泛應用於安全領域。本文主要以隱私保護的方式研究具有正則化ERM學習分類器的問題。 

2. Differential Privacy & ERM

2.1Differential Privacy

  差分隱私是Dwork在2006年提出的一種針對機器學習敏感數據集發布導致的隱私泄露問題的隱私保護模型。基於這一模型,處理后的數據集對任意一個記錄的變化是不敏感的,因此一個數據記錄在數據集中是否存在對於統計計算結果的影響非常小。攻擊者無法通過觀察計算結果而獲取准確的個體信息,因為一條記錄加入數據集而產生的隱私泄露風險被控制在可接受的范圍內。

                                          圖1 模型訓練中的隱私威脅

  例如:有兩個數據集分別為D和D',D和D'之間只有一條記錄是不同的,其他記錄都是相同的。數學描述為|D△D'|=1。然后對D和D'兩個數據集進行查詢操作,比如操作1為查詢D中99個用戶的記錄,操作2為查詢D'中100個用戶的記錄,如果操作1返回的結果和操作2返回的結果一模一樣(一模一樣是理想狀態,實際上只要接近就好,具體實施的時候會有一個隱私預算,只要低於某個閾值就ok),那么就是完美的保護了用戶隱私。這句話的意思其實是說,既然查詢99個人的記錄和查詢100個人的記錄返回的結果一致,那么第100個人就很樂意的奉獻自己的隱私數據,反正有我沒我攻擊者查詢得到的結果都是一樣的。

 

 

                                            圖2 對兩個數據集進行查詢 

設有隨機算法M,PM為所有可能輸出構成的集合的概率,對於任意兩個領近數據集D與D',若算法滿足:

則稱算法M提供了ε-差分隱私保護。通常情況下,ε越小,eε越接近1,兩個的概率就越接近,那么保密程度越高。相反,如果ε越大,那么隱私保護的越不好,凡是查詢的結果會比較准確(error較小)。   

 

2.2ERM

2.2.1 經驗風險最小化  

  經驗風險最小化的策略認為,經驗風險最小的模型是最優的模型:

 

 

 

  當樣本容量足夠大時,經驗風險最小化能保證有很好的學習效果。比如,極大似然估計(就是經驗風險最小化的一個例子,當模型是條件概率分布,損失函數是對數損失函數時,經驗風險最小化就等價於極大似然估計)。但當樣本容量很小時,經驗風險最小化容易導致“過擬合”。

2.2.2 結構風險最小化

  結構風險最小化(structural minimization, SRM)是為了防止過擬合提出的策略。結構風險最小化等價於正則化(regularization)。結構風險在經驗風險上加上表示模型復雜度的正則化項(regularizer)或罰項(penalty term)。結構風險的定義是:

 

 

 

其中J(f)是模型復雜度的函數,是系數,用來權衡經驗風險和模型復雜度。結構風險最小化的策略認為結構風險最小的模型是最優模型:

 

 

 

結構風險小需要經驗風險和模型復雜度同時都小,結構風險小的模型往往對訓練數據以及未知的測試數據都有較好的預測。比如,貝葉斯估計中的最大后驗概率估計(maximum posterior probability estimation,MAP)就是結構風險最小化的一個例子,當模型是條件概率分布、損失函數是對數損失函數、模型復雜度由模型的先驗概率表示時,結構風險最小化就等價於最大后驗概率估計。

3. 算法介紹

本文主要介紹了Dwork(2006)提出的sensitivity method和作者提出的objective perturbation.

3.1輸出擾動

思想:在function的輸出中添加一個噪聲b

 

 

 

 

 

 

具體流程:

 

 

 

通過在輸出結果中添加噪聲能起到一定的偽裝作用。但有一個缺點,在某些特定的應用情況下,function的靈敏度會比較高,這時候需要添加一個高方差的噪聲。

為什么添加高方差的噪聲?

因為靈敏度高代表分散的比較開,function不平滑,這時候就需要通過減小方差來解決。但這里是為了配合這種離散程度高,所以要添加一個高方差的noise。

3.2目標擾動

思想:通過在目標函數添加噪聲來達到目的

 

 

 添加噪聲后的function

PS:該方法中隱私參數不依賴分類算法的靈敏度。

具體流程:

 

 

 

算法中的第一步是對ε的逼近,因為隱私保護中ε值越小,代表保護的越好。

4. 實驗

作者分別在兩個數據集中對兩種算法進行測試(從兩個方面)。

兩種分類器:logistic regression & SVM

4.1 Privacy-Accuracy Trade-off

針對添加隱私保護對於算法的准確性進行一個測試。

 

 

 

 

 

 

從實現結果中可以看出,目標擾動比輸出擾動表現得更好,並且支持向量機的目標擾動比邏輯回歸的目標擾動具有更低的分類誤差。

 

 

 

4.2 Accuracy vs. Training Data Size Tradeoffs

研究分類精度如何隨着訓練集的大小而變化。

由於Adult數據集數量不夠,這次實驗只選擇了KDDCup99數據集進行實驗。

實驗准備:

訓練集從60000至120000,驗證和測試套各為25000。隱私保護率ε分別設為0.05和0.01進行實驗。

 

 

 

 

 

 

 

圖4和圖5分別給出了目標擾動、輸出擾動和標准Logistic損失的靈敏度方法的學習曲線。 

 

 

  從圖中看到,對於標准Logistic回歸和SVM進行學習,隨着數據大小的增加,誤差保持不變。 對於兩種隱私保護方法,誤差通常會減小。在所有情況下,目標擾動都優於靈敏度方法,SVM通常優於Logistic回歸。

 

 

 

5. 總結

 

  本文在Dwork等人的–差分隱私模型中考慮隱私保護,提供了兩種隱私保護的ERM算法,第一種是在不加隱私保護算法的輸出中添加了噪聲的敏感度方法,,第二種是在目標函數中添加噪聲的目標擾動方法,並且為實現泛化誤差提供了算法的樣本需求界限,以及算法中聯合核方法的應用,最后在兩個真實數據集上提供了兩種算法的實驗。對於分類,隨着隱私保護的更加嚴格,錯誤率會增加,實驗結果表明,在保護隱私和學習效果的平衡上,目標擾動通常優於敏感度方法,兩種算法在有更多訓練數據的情況下都表現得更好,並且有大量的訓練數據可用時,兩種算法的性能都可能接近於沒有添加隱私保護而進行的分類。本文有三個問題未能得到解決,如何將目標擾動方法進一步擴展到更一般的凸優化問題以及尋找一個更好的解決方案來使用核方法進行隱私保護分類等。

 

6. 參考文獻

[1]Kamalika Chaudhuri. Differentially private empirical risk minimization. Journal of Machine Learning Research 12 (2011) 1069-1109

[2]https://zhuanlan.zhihu.com/p/48534275

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM