NIPS 2020:GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially Private Generators
阅读时间:2021.4.8
关于GAN,WGAN:https://blog.csdn.net/leviopku/article/details/81292192 ;
https://zhuanlan.zhihu.com/p/25071913 ;
关于Renyi devergence:https://zhuanlan.zhihu.com/p/81462898
允许在严格的隐私保证下释放净化形式的敏感数据。与以前的工作相比,我们的方法能够更精确地扭曲梯度信息,从而能够训练更深的模型,产生更多的信息样本。同时适用centralized和federated(i.e. decentralized)场景。
在本文中,为了实现能够以隐私保护方式合成高质量样本的生成模型的目标。它能够产生具有DP保证的高维数据,在分散场景的情况下,我们的工作可以在不可信的服务器下提供用户级的DP保障
Related work
DP-SGD GAN
通过DP-SGD 训练GANs已被证明在生成高维数据方面是有效的。然而,DP-SGD依赖于gradient norm的clipping界限的仔细调整,即敏感度值。具体来说,最佳clipping界限随着模型架构和训练动态而变化很大,使得DP-SGD的实现变得困难。与DP-SGD 模型不同,我们的框架提供了敏感度值的精确估计,避免了超参数的密集搜索。
PATE
Private Aggregation of Teacher Ensembles (PATE)最近被用于生成模型,并研究了两种主要方法: PATE-GAN and G-PATE。PA TE-GAN在不相交的数据分区上训练了多个教师鉴别器和学生鉴别器。我们考虑一个没有学生鉴别器的简化模型
G-PATE 与我们的工作类似,两个工作都non-privately 训练鉴别器,而只训练具有DP保证的发生器,两个工作都净化了发生器从鉴别器接收的梯度。然而,G-PATE有两个主要限制:(1)梯度需要通过使用手动选择的容器来离散化,以便适合PATE框架;(2)PATE框架中的高维梯度带来高隐私成本,因此需要降维技术。我们的框架可以有效地通过新的梯度净化避免这两个限制,并获得更好的样本质量。
Fed-Avg GAN
虽然许多工作集中在centralized setting,decentralized的情况很少得到研究。为了解决这个问题,Federated Average GAN (Fed-Avg GAN)提出使用DP-Fed-Avg 算法来调整GAN训练,在可信服务器下提供用户级DP保证。与仅处理分散数据的Fed-Avg GAN相比,我们的工作可以使用单一框架处理集中和分散数据。请注意,Fed-Avg以类似于DP-SGD的方式净化了鉴别器的参数梯度,但它也存在转换超参数的困难
Background
Proposed method
传统的sanitized方法是为给定的输入数据,经过sanitized的数据是为特定数据任务,因此对数据分布限制较大,不能推广到发布者没预料的新任务,大多数用于神经网络模型的隐私保护训练算法的共同点是处理反向传播过程中产生的梯度信息。最常见的操作包括clipping gradient(限制敏感度)和添加calibrated random noise (引入随机性)。虽然最近采用这种方法的技术显示出了合理的成功,但它们在很大程度上仅限于浅层网络,不能充分捕捉原始数据的样本质量。
本文提出的GS-WGAN,符合差分隐私的GAN,这种场景中只需要发布一部分模型(尤其是生成器)及其参数:可以加噪更精准,不需要改变全部参数,通过将该方法与带有梯度惩罚项的Wasserstein objective相耦合,我们进一步提高了训练期间梯度信息流的数量(the amount of gradient information flow during training)。新的目标另外允许我们精确地估计gradient norm和分析地确定敏感度值。作为一个额外的好处,我们发现我们的方法绕过了对DP-specific特定的超参数(特别是clipping value)的密集和脆弱的超参数搜索
一种新的梯度净化的GS-WGAN,能够生成具有DP保证的高维数据;我们的方法自然延伸到centralized和decentralized的数据集。在分散场景的情况下,我们的工作可以在不可信的服务器下提供用户级的DP保障
直觉上应该采用下图的方式,如DP-SGD先裁剪梯度使其L2-norm为C,再加噪
但是这样有缺点:裁剪机制显著破坏了原始梯度信息,影响效用;能合理平衡效用和隐私的clipping value C 不好找,尤其是gradient norms呈heavy-tailed 分布,选择C需要穷举搜索(requires an exhaustive search);C的值对超参数(如学习率,模型结构)敏感,需要一直调整。
Selectively applying Sanitization Mechanism
只有生成器被发布,所以只将sanitized机制用在θG相应子集上
利用链式法则进一步缩小需要sanitized的范围,J是独立于训练数据的(the local generator jacobian),因此不需要加噪
我们的目标是在训练期间最大限度地保持真实的梯度方向。
Bounding sensitivity using Wasserstein distance
确定范围后,要开始裁剪,这是为了限制敏感度。
裁剪通常以L2-norm 进行(clipping is typically performed in L2-norm)
但是这样会显著破坏梯度信息,因为在使用标准loss func训练时,合理选择的C(e.g., 4)明显低于观察到的gradient norm(12±10 in our case),为了使gradient norm降低(比C小),选择改变loss func,方式是加入一个梯度惩罚项去限制gradient norm,这个惩罚项是用Wasserstein-1 metric,训练过程可以被解释为最小化真实数据(P)和生成数据(Q)分布之间的积分概率度量(IPMs)
即F是1-Lipschitz continuous的,这样loss func变成如下形式:
其中LD和LD分别代表鉴别器和生成器的训练目标。λ是用于加权梯度惩罚项的超参数,Pz表示潜在编码(latent code)变量z的先验分布。变量α~U[0,1],从[0,1]均匀采样,调节真实样本和生成样本之间的插值
与用标准GAN的loss func训练相比,这个方法导致更小的gradient norm,因此,敏感度限制是通过训练实现的,并且sanitized的clip破坏的信息要少得多。此外,通过选择C=1(即||g||_2<=1),数据无关的隐私为:
Privacy Amplification by Subsampling
为了进一步降低隐私成本,我们将整个数据集细分为不同的子集,并在每个子集上独立训练多个鉴别器。在每个训练步骤中,生成器随机查询一个鉴别器,而选定的鉴别器根据生成的数据及其相关的二次抽样数据集更新其参数(一个子集对应一个鉴别器)。
Extending to Federated Learning
上述过程自然适应decentralized setting,我们的方法和Fed-Avg GAN 之间的一些细微差异如下:
(1) 在我们的框架中,鉴别器保留在每个客户端上,而在Fed-Avg GAN中,它们在服务器和客户端之间共享;
(2)在发送到服务器之前,在每个客户端对梯度进行了sanitized,即使在不可信的服务器下,我们也提供了DP保证。相比之下,在Fed-Avg GAN中,在服务器上,未处理的信息被sanitized之前会累积;
(3) GS-WGAN中传输关于样本的梯度,而Fed-Avg GAN则传输关于鉴别器网络参数的梯度