[差分隱私][論文粗讀]NIPS 2020:GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially Private Generators


NIPS 2020:GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially Private Generators

閱讀時間:2021.4.8

 

關於GAN,WGAN:https://blog.csdn.net/leviopku/article/details/81292192

https://zhuanlan.zhihu.com/p/25071913 ;

關於Renyi devergence:https://zhuanlan.zhihu.com/p/81462898

 

允許在嚴格的隱私保證下釋放凈化形式的敏感數據。與以前的工作相比,我們的方法能夠更精確地扭曲梯度信息,從而能夠訓練更深的模型,產生更多的信息樣本。同時適用centralized和federated(i.e. decentralized)場景。

在本文中,為了實現能夠以隱私保護方式合成高質量樣本的生成模型的目標。它能夠產生具有DP保證的高維數據,在分散場景的情況下,我們的工作可以在不可信的服務器下提供用戶級的DP保障

 

Related work

DP-SGD GAN

通過DP-SGD 訓練GANs已被證明在生成高維數據方面是有效的。然而,DP-SGD依賴於gradient norm的clipping界限的仔細調整,即敏感度值。具體來說,最佳clipping界限隨着模型架構和訓練動態而變化很大,使得DP-SGD的實現變得困難。與DP-SGD 模型不同,我們的框架提供了敏感度值的精確估計,避免了超參數的密集搜索。

 

PATE

Private Aggregation of Teacher Ensembles (PATE)最近被用於生成模型,並研究了兩種主要方法: PATE-GAN and G-PATE。PA TE-GAN在不相交的數據分區上訓練了多個教師鑒別器和學生鑒別器。我們考慮一個沒有學生鑒別器的簡化模型

G-PATE 與我們的工作類似,兩個工作都non-privately 訓練鑒別器,而只訓練具有DP保證的發生器,兩個工作都凈化了發生器從鑒別器接收的梯度。然而,G-PATE有兩個主要限制:(1)梯度需要通過使用手動選擇的容器來離散化,以便適合PATE框架;(2)PATE框架中的高維梯度帶來高隱私成本,因此需要降維技術。我們的框架可以有效地通過新的梯度凈化避免這兩個限制,並獲得更好的樣本質量。

 

Fed-Avg GAN

雖然許多工作集中在centralized setting,decentralized的情況很少得到研究。為了解決這個問題,Federated Average GAN (Fed-Avg GAN)提出使用DP-Fed-Avg 算法來調整GAN訓練,在可信服務器下提供用戶級DP保證。與僅處理分散數據的Fed-Avg GAN相比,我們的工作可以使用單一框架處理集中和分散數據。請注意,Fed-Avg以類似於DP-SGD的方式凈化了鑒別器的參數梯度,但它也存在轉換超參數的困難

 

Background

(ε,δ)-DP

 

 Proposed method

傳統的sanitized方法是為給定的輸入數據,經過sanitized的數據是為特定數據任務,因此對數據分布限制較大,不能推廣到發布者沒預料的新任務,大多數用於神經網絡模型的隱私保護訓練算法的共同點是處理反向傳播過程中產生的梯度信息。最常見的操作包括clipping gradient(限制敏感度)添加calibrated random noise (引入隨機性)。雖然最近采用這種方法的技術顯示出了合理的成功,但它們在很大程度上僅限於淺層網絡,不能充分捕捉原始數據的樣本質量。

本文提出的GS-WGAN,符合差分隱私的GAN,這種場景中只需要發布一部分模型(尤其是生成器)及其參數:可以加噪更精准,不需要改變全部參數,通過將該方法與帶有梯度懲罰項的Wasserstein objective相耦合,我們進一步提高了訓練期間梯度信息流的數量(the amount of gradient information flow during training)。新的目標另外允許我們精確地估計gradient norm和分析地確定敏感度值。作為一個額外的好處,我們發現我們的方法繞過了對DP-specific特定的超參數(特別是clipping value)的密集和脆弱的超參數搜索

一種新的梯度凈化的GS-WGAN,能夠生成具有DP保證的高維數據;我們的方法自然延伸到centralized和decentralized的數據集。在分散場景的情況下,我們的工作可以在不可信的服務器下提供用戶級的DP保障

 

直覺上應該采用下圖的方式,如DP-SGD先裁剪梯度使其L2-norm為C,再加噪

 

但是這樣有缺點:裁剪機制顯著破壞了原始梯度信息,影響效用;能合理平衡效用和隱私的clipping value C 不好找,尤其是gradient norms呈heavy-tailed 分布,選擇C需要窮舉搜索(requires an exhaustive search);C的值對超參數(如學習率,模型結構)敏感,需要一直調整。

 

Selectively applying Sanitization Mechanism

 

只有生成器被發布,所以只將sanitized機制用在θG相應子集上

 

利用鏈式法則進一步縮小需要sanitized的范圍,J是獨立於訓練數據的(the local generator jacobian),因此不需要加噪

 

 

 

我們的目標是在訓練期間最大限度地保持真實的梯度方向。

 

Bounding sensitivity using Wasserstein distance

 

確定范圍后,要開始裁剪,這是為了限制敏感度。

裁剪通常以L2-norm 進行(clipping is typically performed in L2-norm)

 

但是這樣會顯著破壞梯度信息,因為在使用標准loss func訓練時,合理選擇的C(e.g., 4)明顯低於觀察到的gradient norm(12±10 in our case),為了使gradient norm降低(比C小),選擇改變loss func,方式是加入一個梯度懲罰項去限制gradient norm,這個懲罰項是用Wasserstein-1 metric,訓練過程可以被解釋為最小化真實數據(P)和生成數據(Q)分布之間的積分概率度量(IPMs)

 

 

即F是1-Lipschitz continuous的,這樣loss func變成如下形式:

 

 

其中LD和LD分別代表鑒別器和生成器的訓練目標。λ是用於加權梯度懲罰項的超參數,Pz表示潛在編碼(latent code)變量z的先驗分布。變量α~U[0,1],從[0,1]均勻采樣,調節真實樣本和生成樣本之間的插值

與用標准GAN的loss func訓練相比,這個方法導致更小的gradient norm,因此,敏感度限制是通過訓練實現的,並且sanitized的clip破壞的信息要少得多。此外,通過選擇C=1(即||g||_2<=1),數據無關的隱私為:

 

 

 

Privacy Amplification by Subsampling

 

為了進一步降低隱私成本,我們將整個數據集細分為不同的子集,並在每個子集上獨立訓練多個鑒別器。在每個訓練步驟中,生成器隨機查詢一個鑒別器,而選定的鑒別器根據生成的數據及其相關的二次抽樣數據集更新其參數(一個子集對應一個鑒別器)。

 

Extending to Federated Learning

 

上述過程自然適應decentralized setting,我們的方法和Fed-Avg GAN 之間的一些細微差異如下:

(1) 在我們的框架中,鑒別器保留在每個客戶端上,而在Fed-Avg GAN中,它們在服務器和客戶端之間共享;

(2)在發送到服務器之前,在每個客戶端對梯度進行了sanitized,即使在不可信的服務器下,我們也提供了DP保證。相比之下,在Fed-Avg GAN中,在服務器上,未處理的信息被sanitized之前會累積;

(3) GS-WGAN中傳輸關於樣本的梯度,而Fed-Avg GAN則傳輸關於鑒別器網絡參數的梯度

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM