基於差分隱私的安全機制


     

 

    差分隱私采用了一種隨機機制,使得當輸入中的單個樣本改變之后,輸出的分布不會有太大的改變。比如兩個數據集中只有1條記錄有差別,查詢這兩個數據集且獲得相同輸出的概率非常接近。因此,用戶即便獲取了輸出結果,也無法通過結果推測出輸入數據來自哪一方。  在現有的隱私保護方法中,差分隱私對隱私損失進行了數學上的定義,同時實現過程簡捷,系統開銷小,所以得到了廣泛的應用。


 

1.1  差分隱私的定義

      差分隱私是由Dwork在2006年首次提出的一種隱私定義,是在統計披露控制的場景下發展起來的。它提供了一種信息理論安全性保障,即函數的輸出結果對於數據集里的任何特定記錄都不敏感。因此,差分隱私能被用於抵抗成員推理攻擊。

    按照數據收集方式的不同,當前的差分隱私可以分為中心化差分隱私和本地化差分隱私,主要區別在於差分隱私對於數據處理的階段不同。

(1)中心化差分隱私依賴一個可信的第三方來收集數據,用戶將本地數據發送不是到可信第三方,然后在收集的數據中進行差分隱私處理。但可信第三方在現實生活中通常很難獲得。

(2)本地化差分隱私將數據隱私化的工作轉移到每個參與方,參與方自己來處理和保護數據,再將擾動后的數據發送到第三方,由於發送的數據不是原始數據,因此不需要要求第三方是可信的。

 


 

1.2  本地化差分隱私

本地化差分隱私(Local Differential Privacy,LDP)可以將數據隱私化的工作轉移到每個參與方,參與方自己來處理和保護數據,進一步降低了隱私泄露的可能性。

本地化差分隱私是定義在本地數據任意兩條記錄的輸出相似性上的。

(1)中心化差分隱私需要保護全體數據的隱私,具有全局敏感性的概念,采用的擾動機制可以包括高斯噪聲機制、拉普拉斯噪聲機制、指數噪聲機制等。

(2)在本地化差分隱私中,數據隱私化的工作轉移到每個參與方,而每個參與方並不知道其他參與方的數據,因此它並沒有全局隱私敏感性的概念,它采用的擾動機制一般通過隨機相應實現(Randomized Response,RR)。

(3)本地差分隱私的概念和聯邦學習相似,在聯邦學習實現中,可結合本地化差分隱私的思想,比如給每一參與方上傳梯度或模型參數加上噪聲來,更好保護模型參數。聯邦差分隱私不但要求保證每一個客戶端的本地數據隱私安全,也要求客戶端之間的信息安全,即用戶在服務端接收到客戶端的本地模型,既不能推斷出是由哪個客戶端上傳,也不能推斷出某個客戶端是否參與了當前的訓練


 

 

1.3 全局敏感度

  要想知道不同算法函數M需要添加多少噪聲才能提供差分隱私保護,就需要定義該算法在當前數據上的全局敏感度。全局敏感度根據計算距離的方式不同,可分為L1全局敏感度和L2全局敏感度。

不論是L1敏感度還是L2敏感度,它的結果和提供的數據集無關,只由函數本身決定。

(1)從直觀上理解,當全局敏感度比較大時,說明數據集的細微變化可能導致函數M的輸出有很大不同,我們需要添加較大的噪聲數據,才能使函數M提供差分隱私保護。

(2)相反,當全局敏感度較小時,說明數據集 的細微變化不會對函數M的輸出產生很大的影響,我們只需要添加較小的噪聲數據,就能使M提供差分隱私保護


 

1.4  機器學習與差分隱私

在機器學習中應用差分隱私技術,其情況會更加復雜。需要保護的信息,不僅包括輸入數據和輸出數據,還包括算法模型參數、算法的目標函數設計等。

因此,在機器學習領域應用差分隱私算法,一個關鍵的問題是何時、何階段添加噪聲數據。為此,差分隱私算法根據噪聲數據擾動使用的方式和使用階段的不同,將其划分為下面幾類。

(1)輸入擾動:將噪聲數據加入訓練數據。

(2)目標擾動:將噪聲數據加入學習算法的目標函數

(3)算法擾動:噪聲數據加入到中間值,比如迭代算法中的梯度

(4)輸出擾動:噪聲數據加入到訓練后的輸出參數

在不同階段,采用的擾動機制也有不同的考慮。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM