基於差分隱私的安全機制

本文轉載自查看原文 2021-08-11 10:26 117 聯邦學習

差分隱私采用了一種隨機機制，使得當輸入中的單個樣本改變之后，輸出的分布不會有太大的改變。比如兩個數據集中只有1條記錄有差別，查詢這兩個數據集且獲得相同輸出的概率非常接近。因此，用戶即便獲取了輸出結果，也無法通過結果推測出輸入數據來自哪一方。在現有的隱私保護方法中，差分隱私對隱私損失進行了數學上的定義，同時實現過程簡捷，系統開銷小，所以得到了廣泛的應用。

1.1 差分隱私的定義

差分隱私是由Dwork在2006年首次提出的一種隱私定義，是在統計披露控制的場景下發展起來的。它提供了一種信息理論安全性保障，即函數的輸出結果對於數據集里的任何特定記錄都不敏感。因此，差分隱私能被用於抵抗成員推理攻擊。

按照數據收集方式的不同，當前的差分隱私可以分為中心化差分隱私和本地化差分隱私，主要區別在於差分隱私對於數據處理的階段不同。

（1）中心化差分隱私依賴一個可信的第三方來收集數據，用戶將本地數據發送不是到可信第三方，然后在收集的數據中進行差分隱私處理。但可信第三方在現實生活中通常很難獲得。

（2）本地化差分隱私將數據隱私化的工作轉移到每個參與方，參與方自己來處理和保護數據，再將擾動后的數據發送到第三方，由於發送的數據不是原始數據，因此不需要要求第三方是可信的。

1.2 本地化差分隱私

本地化差分隱私（Local Differential Privacy，LDP）可以將數據隱私化的工作轉移到每個參與方，參與方自己來處理和保護數據，進一步降低了隱私泄露的可能性。

本地化差分隱私是定義在本地數據任意兩條記錄的輸出相似性上的。

（1）中心化差分隱私需要保護全體數據的隱私，具有全局敏感性的概念，采用的擾動機制可以包括高斯噪聲機制、拉普拉斯噪聲機制、指數噪聲機制等。

（2）在本地化差分隱私中，數據隱私化的工作轉移到每個參與方，而每個參與方並不知道其他參與方的數據，因此它並沒有全局隱私敏感性的概念，它采用的擾動機制一般通過隨機相應實現（Randomized Response，RR）。

（3）本地差分隱私的概念和聯邦學習相似，在聯邦學習實現中，可結合本地化差分隱私的思想，比如給每一參與方上傳梯度或模型參數加上噪聲來，更好保護模型參數。聯邦差分隱私不但要求保證每一個客戶端的本地數據隱私安全，也要求客戶端之間的信息安全，即用戶在服務端接收到客戶端的本地模型，既不能推斷出是由哪個客戶端上傳，也不能推斷出某個客戶端是否參與了當前的訓練

1.3 全局敏感度

要想知道不同算法函數M需要添加多少噪聲才能提供差分隱私保護，就需要定義該算法在當前數據上的全局敏感度。全局敏感度根據計算距離的方式不同，可分為L1全局敏感度和L2全局敏感度。

不論是L1敏感度還是L2敏感度，它的結果和提供的數據集無關，只由函數本身決定。

（1）從直觀上理解，當全局敏感度比較大時，說明數據集的細微變化可能導致函數M的輸出有很大不同，我們需要添加較大的噪聲數據，才能使函數M提供差分隱私保護。

（2）相反，當全局敏感度較小時，說明數據集的細微變化不會對函數M的輸出產生很大的影響，我們只需要添加較小的噪聲數據，就能使M提供差分隱私保護

1.4 機器學習與差分隱私

在機器學習中應用差分隱私技術，其情況會更加復雜。需要保護的信息，不僅包括輸入數據和輸出數據，還包括算法模型參數、算法的目標函數設計等。

因此，在機器學習領域應用差分隱私算法，一個關鍵的問題是何時、何階段添加噪聲數據。為此，差分隱私算法根據噪聲數據擾動使用的方式和使用階段的不同，將其划分為下面幾類。

（1）輸入擾動：將噪聲數據加入訓練數據。

（2）目標擾動：將噪聲數據加入學習算法的目標函數

（3）算法擾動：噪聲數據加入到中間值，比如迭代算法中的梯度

（4）輸出擾動：噪聲數據加入到訓練后的輸出參數

在不同階段，采用的擾動機制也有不同的考慮。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 差分隱私中指數機制的實現差分隱私學習三：實現機制差分隱私基礎 (一) 差分隱私差分隱私 (二) 差分隱私直觀理解淺談對差分隱私的理解差分隱私報告---第4組 C++差分隱私的指數機制的一種實現方法 MindSpore：基於本地差分隱私的 Bandit 算法