【論文學習3】Local Differential Privacy for Deep Learning

本文轉載自查看原文 2020-03-08 20:24 1600

Local Differential Privacy for Deep Learning

0.ABSTRACT

物聯網平台創新包括邊緣雲交互中的軟件定義網絡（SDN）和網絡功能虛擬化（NFV）的融合
深度學習因其在使用大量數據進行訓練時具有顯著的准確性而越來越受歡迎。然而，當使用高度敏感的眾包數據（如醫療數據）進行訓練時，DL算法往往會泄露隱私。
我們提出了一種新的局部差異私有（LDP）算法，稱為LATENT算法，重新設計了訓練過程。LATENT允許數據所有者在數據離開設備之前添加隨機化層.卷積神經網絡的結構被划分為：（1）卷積模塊（2）隨機化模塊（3）全連接層。隨機化模塊可以作為NFV隱私保護服務運行。
隨機化模塊中采用了一種新的LDP協議，稱為效用增強隨機化（utility enhanced randomization），與現有的LDP協議相比，它允許潛在用戶保持較高的效用。我們對潛在卷積深度神經網絡的實驗評估表明，即使在低隱私預算（例如，ε=0.5）下，具有高模型質量的優良精度。

1.introdution

在論文中，我們：

examine the privacy issues of deep learning
develop a distributed privacy-preserving mechanism using DP to control and limit privacy leaks in deep learning

contribution（a distributed LDP mechanism with a new LDP protocol ）

提出的新算法（LATENT）應用了隨機響應的屬性——LDP設置和算法的層結構可以使得在不同層級進行隱私保護交流
設計了一種新的協議，稱為效用增強隨機化（UER）
（1）首先對優化的一元編碼協議（OUE）進行了改進，提出了一種新的LDP協議modified OUE（MOUE），增強了二進制字符串隨機化的靈活性。
（2）OUE是一個LDP協議，遵循隨機1和0的不同直覺，以提高效用。
（3）MOUE通過引入一個額外的系數α（隱私預算系數）來實現改進的靈活性，該系數在選擇隨機化概率時提高了靈活性。
然后我們遵循MOUE背后的動機，提出了在高靈敏度的長二進制字符串隨機化過程中保持效用的UER。

2.background

2.1 Differential Privacy

DP定義了在數據集中可能被泄露給對手的信息界限，ε (epsilon) and δ (delta) 被用來表示這些界限。

1)Privacy budget / privacy loss (ε)

隱私損失ε可以觀察DP算法中的隱私泄露。ε越高，隱私泄露越多。

2）Probability to fail / probability of error (δ)

δ用來計算可能導致高隱私損失的事件。δ是輸出顯示特定個體身份的概率，可能會發生δn次（n為記錄數）。為了最小化隱私損失，δn必須保持一個最小值。

3)Definition of differential privacy

2.2 Global vs. Local Differential Privacy

GDP需要一個可信第三方來對真實結果加噪音然后返回給請求者，最常用的機制是Laplace機制和Gaussian機制

LDP不需要可信第三方，數據在傳給第三方之前就已經進行隨機化

2.3 Random Response（隨機響應）

隨機響應通過隨機化結果“是”或“否”的回答來消除逃避型的答案偏差。通常是用硬幣來決定的，如果是正面朝上，回答真實結果；如果翻面朝上，就回答相反結果。提供真實結果的概率為p，當滿足ε—differentital privacy

2.4 Sensitivity, Privacy Budget (ε), and Determination of the Probability (p) of Randomization

為了量化傳輸比特串的LDP過程中的隨機化概率p，我們可以使用隨機聚合隱私保護順序響應RAPPOR，這是google提出的LDP算法。RAPPOR是從離散數據字典中估計字符串的客戶端分布。

靈敏度定義為單個個體對查詢結果的最大影響。任意函數f，靈敏度∆f為：

RAPPOR是一個LDP算法。在全局靈敏度定義中，x和y為相鄰輸入。在RAPPOR算法中，任何輸入vi都被編碼成d比特的向量，每個d比特向量都包含d-1個0和1個1，所以∆f的最大值為2比特。換句話說,RAPPOR的靈敏度f為2.

2.5Properties of Differential Privacy

Postprocessing invariance/robustness（后處理不變形/穩健性）

在差分隱私算法中會有一些額外的計算，但這些計算並不會削弱隱私保證，對ε—DP的額外計算結果仍滿足ε—DP。

quantifiability（可量化性）

可量化性是指在隨機化過程中計算精確擾動提供透明度的能力。因此，數據提供者可以看到數據擾動之后的隱私水平

composition（可組合性）

ε1—DP和ε2—DP應用在相同或重疊的數據集上，結果滿足(ε1+ε2)—DP。DP算法越多，隱私損失越大。
DP算法可以分為：基本算法和派生算法——差分隱私本身包含基本算法，派生算法是從現有方法中應用可組合性和后處理不變形推導出來的。

2.6 Deep Learning Using Convolutional Neural Networks

CNN通常被訓練識別圖像的基本特征。如上圖所示，卷積層堆棧之后是一個池的中見功能，用來減少上一層的維度到下一維度。從最后一個卷積層產生的最終池輸出產生一個相當大的1維向量，然后利用這些輸入向量全連接人工神經網絡(ANN),對輸入圖像進行預測（分類）。

當訓練精度明顯高於測試精度時，會發生過擬合。正則化、圖像增強和超參數調整用來防止過擬合。
（1）正則化是對學習算法進行改變來減少泛化誤差，正則化可以通過dropout實現，，即在每個訓練周期中隨機一定百分比的神經元，來避免過度擬合。
（2）圖像增強是一種數據准備技術，對輸入的圖像使用不同的轉化方法，例如反射，透明和旋轉進行操作來產生很多更改的版本。
（3）dropout百分比、批處理大小、激活函數，神經元數、epoch數和優化器在不同訓練階段進行更改以產生更好的結果。
批處理大小是在一次向前/向后傳播中的訓練示例數。
激活函數定義特定神經元的輸出，給定一組輸入，有相應的權重，將非線性屬性引入網絡。
神經元是人工神經網絡中的主要組成部分。
通過神經元向前/向后傳遞整個數據集的單程稱為epoch
優化器被用來更新模型參數，例如權重和偏差值。

2.7 Amalgamation of SDN and NFV in Edge-Cloud Interplay

SDN和NFV是兩種可編程基礎設施，用來提高網絡的可用性。這兩種技術都基於創建網絡功能虛擬實例的概念，SDN虛擬控制方面，NFV虛擬化重要的網絡功能，例如加密通道。SDN和NFV的融合可以在復雜性、效率和服務質量方面帶來很多先進功能。SDN控制NFV可以引入一系列有利於邊緣雲的虛擬化，從而提高本地設備和雲服務的安全性和通訊質量。

3.APPROACH：LATENT

這部分討論差分隱私算法機制應用在深度學習的LATENT中。LATENT可以被分類為派生的差分隱私算法基於隨機響應技術。在應用差分隱私機制時，LATENT使用了差分隱私的兩種屬性：后處理不變性和可組合性；在隨機化過程中，LATENT使用正則化、圖像增強、超參數調整來優化性能。

3.1 引入中間層（LATENT）將差分隱私注入到CNN架構

我們在卷積模塊和FC模塊之間插入了一個LATENT隨機化模塊。初始，使用卷積層和池層對輸入特征進行降維處理，最終池層的輸出是一個單一維數組。

（1）apply z-score normalization to LATENT’s input values

在隨機化之前，LATENT將輸入值轉化為二進制值。輸入值可能有不同范圍。轉化大值或小值為二進制可能設計大量的位。這可能對算法引入不同的復雜性。為了避免這種復雜性，我們對1維向量進行z—score標准化。

z-score 標准化

經過處理的數據符合標准正態分布，即均值為0，標准差為1。

其轉化函數為：x* = (x - μ ) / σ，其中μ為所有樣本數據的均值，σ為所有樣本數據的標准差。

z-score標准化方法適用於屬性A的最大值和最小值未知的情況，或有超出取值范圍的離群數據的情況。該種標准化方式要求原始數據的分布可以近似為高斯分布，否則效果會變得很糟糕。

標准化的公式很簡單，步驟如下：
　　1.求出各變量（指標）的算術平均值（數學期望）xi和標准差si ；
　　2.進行標准化處理：
　　zij=（xij－xi）/si
　　其中：zij為標准化后的變量值；xij為實際變量值。
　　3.將逆指標前的正負號對調。
　　標准化后的變量值圍繞0上下波動，大於0說明高於平均水平，小於0說明低於平均水平。

def z_score(x, axis):
    x = np.array(x).astype(float)
    xr = np.rollaxis(x, axis=axis)
    xr -= np.mean(x, axis=axis)
    xr /= np.std(x, axis=axis)
    # print(x)
    return x

(2)Define the bounds (lengths of the segments) for the binary conversion(定義二進制的界限)

特定的輸入需對上界和下界進行初步估計。上圖顯示顯示z-score標准化輸入的二進制轉換的位的排列。二進制字符串有三個主要段。第一位表示輸入的符號（1表示負，0表示正），另兩位分別是整數部分和小數部分。選擇整數位取決於整數的最大值，由於z-score標准化，表示整數所需的比特位很小；表示小數位的比特數取決於精度，為了獲取更高的精度，小數部分需要使用更多的位。