Privacy-preserving logistic regression論文分析報告


小組成員:鄭爽、王妮婷、王靜雯

一、背景

      機器學習的隱私保護研究大致分為2條主線: 以多方安全計算、同態加密為代表的加密方法和以差分隱私為代表的擾動方法。與加密方法相比,差分隱私機制更易於在實際場景中部署和應用。

二、論文簡介

      該論文的目標是彌合密碼學和信息安全社區中的方法與數據挖掘社區中的方法之間的差距。 這是必要的,因為要在協議的隱私和尊重協議的功能的可學習性之間進行權衡。 在論文中,作者介紹了Dwork等人提出的用於在隱私模型中學習的算法。差分隱私模型通過觀察從包含該值的數據庫中學習到的功能來限制可以從中獲得多少有關特定私有價值的信息。此設置中的初始肯定結果取決於函數的敏感度,即函數值由於一個輸入的任意更改而發生改變的最大值。使用此方法需要限制要學習的函數類的敏感度,然后添加與靈敏度成正比的噪聲。

      該論文的貢獻主要體現在以下三點。

  1. 作者將基於敏感度的設計隱私保護算法的方法應用於特定的機器學習算法,即邏輯回歸。
  2. 作者提出了第二種保護隱私的邏輯回歸算法。第二種算法基於求解擾動的目標函數,而不依賴於靈敏度。
  3. 作者證明了新方法在差分隱私模型中是私有的。最后,作者提供了實驗來證明論文中的新方法的卓越學習性能。

三、方法簡介

1、 敏感度

      對於函數f:X → Y,xi∈X和r∈X為特征向量。當且僅當輸入數據中任意一條數據改變時,其輸出結果變化的最大值稱為該函數的敏感度,形式化定義為:

S(f)= max |f(x1,…,xn-1,r) – f(x­1,…,xn-1,r’)|

      差分隱私機制是目前機器學習的隱私保護研究中最常采用的方法之一。由於模型訓練過程往往需要多次訪問敏感數據集,如數據預處理、計算損失函數、梯度下降求解最優參數等,故必須將整個訓練過程的全局隱私損失控制在盡可能小的范圍內。對於簡單模型,此要求較容易實現。然而,對結構復雜、參 數量大的深度學習模型而言,將難以平衡模型可用性與隱私保護效果,這是該技術面臨的最大問題與挑戰。

2、差分隱私模型

     與加密方法相比,差分隱私機制更易於在實際場景中部署和應用,根據數據處理與分析能力的不同,機器學習模型可分為以線性回歸、邏輯回歸、支持向量機等基於統計學習理論的傳統機器學習方法,和以各類神經網絡模型為代表的深度學習方法。

     對於傳統機器學習,根據經驗風險最小化得到的最優模型往往與決策邊界附近的某些訓練樣本密切相關(如SVM 中的支持向量)。若這些樣本的集合被增加、刪除或修改,將會導致模型完全改變,在這種情況下,訓練樣本的信息將很 容易被推測出來

3、一種簡單的算法

 

      算法的思想:通過對輸入得出的輸出結果加上一個噪聲來實現隱私保護。

      存在的問題:算法的性能隨着λ的減小而降低,特別是當λ很小時,性能較差。問題是能否獲得邏輯回歸的隱私保護近似值,對於較小的λ具有更好的性能界限?為了探索這個問題,文中提出了一種不同的算法。

4、 改進后的算法

 

 

       算法的思想:改進后的算法用一個正則化常量λ替代原本添加噪聲的算法,由於正則化本來是用於防止模型的過擬合,在該算法中用來降低函數的敏感度達到隱私保護的作用。算法基於求解一個擾動目標函數,不依賴於敏感度。

四、實驗

       論文中提供了一些模擬方法來比較這兩種隱私保護方法,並證明使用論文中的隱私保護方法進行邏輯回歸不會像標准邏輯回歸那樣嚴重降低學習性能,但是性能下降是不可避免的。為了解決隱私問題,作者為學習的分類器或目標添加噪音。 

 

        圖1給出了在17,500個點上的交叉驗證中測試誤差的平均值和標准偏差。

       在兩種模擬中,作文中的新方法都優於靈敏度方法,盡管會導致錯誤比標准邏輯回歸要大。對於這兩個問題,論文中對10,000個保留點集進行了交叉驗證,從而對邏輯回歸參數λ進行了調整,以最大程度地減少標准logistic回歸的測試誤差。由於每種隱私保護算法都是隨機算法,因此通過平均200多次隨機重啟來評估每種隱私保護算法的性能。

 

        在圖2的a和b中,論文提供了學習曲線。圖2繪制了每增加1000點后的測試誤差,這些誤差是交叉驗證的平均值。學習曲線表明,新方法不僅比靈敏度方法具有更低的最終誤差,而且在大多數較小的訓練集大小下也具有更好的性能。

        為了觀察隱私級別對保留隱私的學習算法的學習性能的影響,在圖2的c和d中,根據關於差分隱私模型的定義,新方法在管理隱私和學習性能之間的權衡方面具有優勢。

五、總結

        論文中展示了通過邏輯回歸構建隱私保護線性分類器的兩種方法。第一個是基於以往算法的一個方法,第二個是一種新算法。使用Dwork等人的差分隱私模型定義,論文證明了新算法可以保護隱私。並且論文為這兩種算法提供了學習性能保證,這在通常會應用邏輯回歸的情況下對新算法更為嚴格。 在仿真中,論文中的新算法優於以往的方法。

        論文還揭示了正則化和隱私之間的有趣關系:正則化常數越大,邏輯回歸函數對任何一個單獨的示例的敏感度就越低,因此為使其保持隱私而需要添加的噪聲也越少。所以正規化不僅可以防止過度擬合,而且還有助於保護隱私。

參考文獻

[1] 鄒鴻珍. 基於差分隱私的回歸分析算法研究[D]. 2016.

[2] 周大力. 基於Laplace機制的差分隱私回歸分析相關優化研究[D].

[3] 葛宇航. 基於差分隱私的線性回歸分析[J]. 科技經濟導刊, 2019, 27(14):163-164.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM