數據分析綜述:聯邦學習中的數據安全和隱私保護問題


©作者 | Doreen

01 聯邦學習的背景知識

近年來,隨着大量數據、更強的算力以及深度學習模型的出現,機器學習在各領域的應用中取得了較大的成功。

然而在實際操作中,為了使機器學習有更好的效果,人們不得不將大量原始數據送入模型中訓練,這使得一些敏感數據被惡意的攻擊者竊取。

因此,研究人員開始琢磨如何在保護數據安全和隱私的前提下提高機器學習的准確率。經過多年的探索,[1]提出了一個基於機器學習框架的聯邦學習模型。

聯邦學習模型的實現主要分為以下三個步驟:

1、模型選擇:中央服務器先預訓練一個模型,然后將整個模型(包括其初始參數)分享給所有的用戶終端;

2、本地訓練模型:用戶接收到分發的模型后用各自的數據訓練該模型,同時更新參數,然后將訓練好的模型重新發送給中央服務器;

3、整合模型:中央服務器接收到各個用戶的模型后將其整合成一個全局模型,然后再分享給各個用戶終端。

通過以上三步不斷迭代直至模型收斂為止。流程圖如圖1所示。

 

圖1 聯邦學習流程圖(圖片來自論文:Mothukuri Viraaji,Parizi Reza M.,Pouriyeh Seyedamin,Huang Yan,Dehghantanha Ali,Srivastava Gautam. A survey on security and privacy of federated learning[J].Future Generation Computer Systems,2021,115)

目前,聯邦學習根據不同標准可以分為不同類別。按照網絡拓撲結構,聯邦學習可分為中心化和完全去中心化聯邦學習。前者依賴一個中心服務器去分享、整合訓練模型。

與傳統的中心服務器不同,聯邦學習的中心服務器通過實時或非實時的用戶更新模型來整合全局模型,在此過程中不涉及到數據的傳輸。

完全去中心化聯邦學習(網絡拓撲圖如圖2所示)沒有中心服務器和全局模型的概念,采用了端對端共享信息來更新用戶模型。

 

圖2 完全去中心化聯邦學習的網絡拓撲圖(圖片來自論文:Mothukuri Viraaji,Parizi Reza M.,Pouriyeh Seyedamin,Huang Yan,Dehghantanha Ali,Srivastava Gautam. A survey on security and privacy of federated learning[J].Future Generation Computer Systems,2021,115)

按照數據分區來划分,聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。

其中,橫向聯邦學習(如圖3所示)適用於同一領域的不同用戶數據有着較多的相似特征。最經典的案例是谷歌的Gboard,當用戶在手機鍵盤上輸出一個詞,利用橫向聯邦學習模型可以預測出用戶想要輸出的下一個詞。

縱向聯邦學習(如圖4所示)適用於不同領域的用戶擁有共同數據(數據特征不一致)的情況。最典型的案例是銀行通過縱向聯邦學習模型從不同用戶的信用卡網購信息中學習到用戶的購物喜好,並根據該信息為用戶提供相關的刷卡折扣優惠同時優化自身的聯邦學習模型。

聯邦遷移學習(如圖5所示)是指利用一個在相似數據集上訓練好的模型作為初始模型去解決另一個完全不同的問題,其應用場景與縱向聯邦學習的應用類似。在該模型中,全局模型在雲服務器上運行,用戶可以下載該模型並根據自己的需求更新模型,從而使得模型更加個性化。

 

圖3 橫向聯邦學習示意圖(圖片來自論文:Mothukuri Viraaji,Parizi Reza M.,Pouriyeh Seyedamin,Huang Yan,Dehghantanha Ali,Srivastava Gautam. A survey on security and privacy of federated learning[J].Future Generation Computer Systems,2021,115)

 

圖4 縱向聯邦學習示意圖(圖片來自論文:Mothukuri Viraaji,Parizi Reza M.,Pouriyeh Seyedamin,Huang Yan,Dehghantanha Ali,Srivastava Gautam. A survey on security and privacy of federated learning[J].Future Generation Computer Systems,2021,115)

 

圖5 聯邦遷移學習示意圖(圖片來自論文:Mothukuri Viraaji,Parizi Reza M.,Pouriyeh Seyedamin,Huang Yan,Dehghantanha Ali,Srivastava Gautam. A survey on security and privacy of federated learning[J].Future Generation Computer Systems,2021,115)

鑒於聯邦學習模型在傳遞信息的過程中始終將原始數據保留在用戶終端,其在數據安全和隱私保護方面有着較大的優勢。

憑借該優勢,聯邦學習已經廣泛應用於各個領域。在醫療領域,各個醫療機構都存儲了大量的患者信息,這為實現精准醫療奠定了基礎。

然而在實際應用過程中,為了提高機器學習模型的泛化能力,常常需要將不同機構的數據混在一起送入模型中訓練,因此一些敏感信息很容易遭到泄露進而給患者帶來一定的安全風險。

針對這個問題,聯邦學習可以令中央服務器整合各個機構訓練后的模型來生成一個全局模型分享給用戶,不僅提升了模型的泛化能力,而且有效地保護了敏感信息。

除此之外,聯邦學習在自動駕駛、惡意軟件分類、入侵檢測等方面也有着廣泛應用。

02 聯邦學習在數據安全和隱私保護方面國內外的研究進展

眾所周知,系統中的漏洞使得一些惡意攻擊者通過使用特定的技術就能輕松獲取未授權的高級權限。一旦擁有了該權限,攻擊者不僅可以竊取各種敏感數據,而且能夠任意更改系統的配置來達到自己的目的。

因此,找到漏洞源頭是維持系統安全穩定運行的前提條件。聯邦學習作為一個分布式機器學習模型,可以部署到各種各樣的終端上,其存在着一些與分布式系統類似的安全漏洞。

通過分析聯邦學習模型的運行流程,可以將漏洞的來源確定為以下五個方面[1]:

①通信協議:聯邦學習是一個反復迭代的模型,在學習過程中會隨機選取一些客戶端信息進行交互。由於存在多次的信息傳遞,不安全的通信信道成為漏洞的一個源頭;

②用戶數據操控:在一個大型的聯邦學習環境中,眾多終端都擁有一些敏感數據和模型參數,一旦被攻擊者利用,攻擊者可以憑借終端信息推測出全局模型並根據自己的目的任意更改模型,從而對模型輸出結果的准確率造成一定的影響;

③受到安全威脅的中央服務器:中央服務器負責整合用戶端上傳的更新模型,並將原全局模型進一步更新后下發給各用戶終端。若中央服務器遭到攻擊者的破壞,全局模型的輸出結果將會受到影響;

④弱聚合算法:聚合算法是整個聯邦學習模型的核心,其通過對用戶端模型的處理和整合,將原全局模型改進為個性化的全局模型。若算法的安全漏洞被攻擊者所利用,其將不能識別惡意用戶上傳的錯誤模型,因此不能保證更新后的全局模型的有效性;

⑤聯邦學習環境的實施者:由於缺乏敏感數據的定義和安全防護的標准,聯邦學習的架構師、開發者們常常忽視了一些安全預控措施,導致自身成為安全隱患的源頭。

(1)目前存在的數據安全和隱私保護方面的風險

攻擊者們確定了漏洞的來源后,會針對不同漏洞的特點確定不同類型的攻擊方案。一般而言,用戶端是聯邦學習中比較薄弱的部分,攻擊者利用其弱點通過更改用戶端模型參數來控制模型的訓練過程,進而取得全局模型的控制權。

這類數據安全風險可以分為以下幾類:

A、數據投毒

數據投毒是一種通過生成臟數據集來訓練用戶模型,然后將更新后的用戶模型上傳給中央服務器。由於臟數據集的輸入使用戶模型產生錯誤的模型參數,最終使得全局模型的有效性大受影響。[2]第一次提出了利用數據投毒攻擊支持向量機。

這類攻擊成功的關鍵是機器學習算法默認訓練數據的分布符合常識。然而在實際情況中,攻擊者利用一些惡意數據就可以推測出機器學習算法的決策方程,並根據此構建更巧妙的惡意數據混淆機器學習算法。

數據投毒的范圍較廣,主要包含數據注入、數據更改等多個子類。其中,數據注入指的是惡意用戶將錯誤數據送入本地模型進行訓練從而控制若干個本地模型的訓練結果。

數據更改則是通過將若干個類別的數據混在一起作為訓練樣本來混淆本地訓練模型,或者通過對訓練數據的標簽進行隨機交換使模型的輸出結果發生錯亂。

B、模型投毒

模型投毒通常會更改用戶終端更新后的模型,比數據投毒(更改數據)能更直接地作用於全局模型,因此其攻擊效果也更有效[3]。[4]第一次研究了如何在抗拜占庭攻擊的聯邦學習中制造有效的攻擊模型。

基本思路是攻擊者控制了其中一個用戶端的模型后對模型參數進行修改,再將其上傳給服務器。攻擊者通過操縱全局模型使其在測試任何示例時都具有較高的錯誤率,最終導致拒絕服務攻擊。

在實際操作過程中,模型投毒的攻擊性在用戶終端足夠多的大型聯邦學習環境中比較明顯。

C、后門攻擊

相比投毒攻擊的透明性,后門攻擊具有一定的潛在性和不易覺察性。后門攻擊是在全局模型正常運行的情況下注入了一個惡意程序,其本質上也是一個模型投毒攻擊。

由於該惡意程序不會立即影響全局模型的輸出結果,因此需要花很長時間才能對其進行鑒別。[5]詳細介紹了如何對聯邦學習框架進行后門攻擊,主要關注了語義后門攻擊。

語義后門不需要對樣本進行修改即可出發后門攻擊,相對於較弱的像素模式攻擊,語義后門在大量部署聯邦學習系統的環境中攻擊力更強。

D、生成對抗性網絡攻擊

生成對抗性網絡(GAN)是近幾年發展較快的一個模型,利用該模型能發起投毒類型的攻擊,給聯邦學習系統的數據安全和隱私保護兩方面均可造成一定的威脅。

[6]設計了一種針對協同深度學習的攻擊,在該攻擊模型中,攻擊者可以在服務器正常工作時影響學習過程,並通過引入協同學習中的欺騙概念誘導其他用戶欺騙受害者,使其發布自己的敏感數據。

由於基於GAN的攻擊通常是不能被預見的,因此該攻擊是一種影響力和優先級都較高的攻擊方式。

E、搭便車攻擊

搭便車攻擊是一種被動的攻擊方式,指的是參與聯邦學習的用戶只利用全局模型來更新自己的本地模型而拒絕向全局模型提供有價值的本地信息。由於缺乏一些有用的客戶端信息改進全局模型,這種攻擊對於小型聯邦學習模型的輸出結果影響較大。

但在實際場景中,各個用戶端都想利用泛化性能強大的全局模型優化自己的本地模型,因此出現搭便車攻擊的幾率較小,其安全風險也比上面幾種攻擊的風險較低。

除了上述數據安全方面的攻擊外,聯邦學習系統本身也存在着隱私泄露的問題。雖然在整個系統中盡可能減少了數據的流通,但一些攻擊者還是能夠利用用戶終端相互傳遞的模型信息來猜出用戶端數據。

目前聯邦學習所涉及的隱私保護方面的攻擊主要包括以下幾種:

A、成員推理攻擊[7]

 

 

圖6 成員推理攻擊流程圖(圖片來自論文:S. Truex, L. Liu, M. E. Gursoy, L. Yu and W. Wei, "Demystifying Membership Inference Attacks in Machine Learning as a Service," in IEEE Transactions on Services Computing, vol. 14, no. 6, pp. 2073-2089, 1 Nov.-Dec. 2021)

 

圖7 成員推理攻擊模型(圖片來自論文:S. Truex, L. Liu, M. E. Gursoy, L. Yu and W. Wei, "Demystifying Membership Inference Attacks in Machine Learning as a Service," in IEEE Transactions on Services Computing, vol. 14, no. 6, pp. 2073-2089, 1 Nov.-Dec. 2021)

B、基於GAN的推理攻擊

GAN近年來廣泛應用於機器視覺領域,利用其優點,B. Hitaj[8]等人第一次提出了基於GAN的重構攻擊模型(如圖8所示)。在該模型中有受害人V和攻擊者A兩個參與者,首先令V訓練模型。

V從中央服務器下載了一些參數來更新自己的本地模型(本地模型由帶有標簽a,b的數據集來訓練),然后將更新后的模型參數重新上傳給服務器;接着令攻擊者A訓練模型。

A首先也從中央服務器下載了一些參數更新自己的本地模型(該模型對於受害者是不可知的)使其輸出結果的標簽逐漸接近受害者的a標簽,同時通過訓練自己的攻擊模型令其生成帶有標簽c的數據集。

然后利用帶有標簽b,c的數據集訓練攻擊模型,並將更新后的本地模型參數上傳給服務器。通過攻擊者和受害者兩人不斷重復上述過程直至模型收斂為止。

雖然基於GAN的推理攻擊模型在一定程度上成功地推理出了受害者的訓練樣本,但是由於攻擊者對全局模型的影響會隨着對上傳的本地模型參數的平均整合而逐漸減弱,其在聯邦學習系統中的表現並不理想。

 

圖8 基於GAN的攻擊模型(圖片來自論文:B.Hitaj, G.Ateniese, F.Perez-Cruz,"Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning," in Proc of ACM CCS. ACM,2017)

 

 

圖9 基於mGAN-AI的攻擊模型(圖片來自論文:Z Wang,M Song,Z Zhang,Y Song,Q Wang,H Qi,Beyond Inferring Class Representatives: User-Level Privacy Leakage from Federated Learning,in: IEEE INFOCOM 2019-IEEE Conference on Computer Communications,2019)

(2)相關解決方案

聯邦學習系統中數據安全漏洞的防御方法主要有主動式和被動式兩大類。

主動式防御主要通過猜測可能出現的安全風險的類型來嘗試利用相關的技術進行防御。

被動式防御則是確定了攻擊類型后,再針對性地進行漏洞修補工作。

目前廣泛使用的防御方法主要有以下幾種:

A、數據清理

由於現實場景中某些訓練數據集的質量無法保證,使得模型無法通過對這部分數據的學習識別出潛在的攻擊,因此[10]提出了利用異常檢測探測器過濾出可疑的訓練數據。

作者提出了在異常檢測探測器的訓練過程中加入數據清理的操作,生成了許多小模型,並利用這些模型為數據添加臨時標簽。接着將這些模型與投票策略結合起來判定哪些訓練數據可能來源於攻擊方。

此外,為了提升數據清理的效果,[11]引入了統計學中的相關知識。通過觀察受污染額數據的出現過程對訓練樣本輸出結果的影響,作者提出了迭代修正損失最小化的方法,為理解訓練結果的發展趨勢提供了進一步的認識。

雖然數據清理在一定程度上有效地防御了數據投毒攻擊,但是[12]發現,數據清理在一些高級別的數據投毒攻擊中效果並不明顯。

B、異常性探測

異常性探測通過學習正常樣本的統計分部等特性來找出可疑的數據,常常被用來防御數據投毒和模型投毒之類的攻擊。

在聯邦學習中,不同種類的數據投毒、模型投毒會用到不同方式的異常性探測技術。

[13]中作者在聚合用戶端數據之前對每個用戶端更新的數據進行聚類操作。聚類算法中用到了歐氏距離來探測可疑的用戶數據並將其剔除。

[4]通過系統性地研究抗拜占庭攻擊的聯邦學習(即在聯邦學習系統中參與者存在不可信任的情況下保證系統的安全運行)提出了兩種防御方法——基於錯誤率的拒絕(ERR)(即移除對全局模型錯誤率影響較大的數據集)和基於損失函數的拒絕(LFR)(即在一個訓練集中尋找一個子集最小化該損失函數,子集外的數據都視為可疑數據)。

[14]從新的角度出發提出了一個基於頻譜異常檢測的框架來探測異常模型,在主要特征不受影響的前提下剔除掉一些噪聲和與目標不相關的特征。

頻譜異常探測模型結合了變分自編碼器和動態閾值的方法,能兼容無監督和半監督學習場景,在惡意模型未知或者不能提前預判情況下的聯邦學習系統中表現較好。

C、知識蒸餾

知識蒸餾是模型壓縮技術的一個變形,其利用知識分享取代了模型參數分享,在聯邦學習系統中不僅可以針對推理攻擊、基於GAN的攻擊以及投毒攻擊等進行有效防御,而且在實際應用中降低了模型訓練的計算開銷。

[15]將遷移學習和知識蒸餾技術結合起來,提出了一種新的聯邦學習框架使用戶端能夠獨立設計自己的本地模型,主要分以下四個步驟:

①用戶從共享數據集中選擇一部分數據並結合自己的本地數據訓練本地模型,並將模型預測結果的評分發送給中央服務器;

②服務器對各個客戶端傳送的數據分別求平均分數,然后根據各用戶端模型的權重整合平均分數來更新全局模型;

③用戶端下載全局模型的平均分數,並利用知識蒸餾的方法用共享數據集在本地模型上擬合得到該平均數;

④各用戶端在本地模型上訓練本地數據集同時更新本地模型。

以上四步重復進行直到全局模型收斂為止。該框架的提出不僅使用戶端根據自身需求訓練出合適的模型,而且通過傳輸訓練結果的平均分數保證了用戶數據的安全。

由於用戶端存在着大量敏感數據,因此找到保護用戶端數據隱私的方法是聯邦學習中隱私保護的關鍵。

現有的隱私保護算法主要基於多方安全計算和差分隱私兩大類。

A、多方安全計算

多方安全計算是R.Canetti等人首次提出的,主要用於保護參與合作的各用戶端的輸入數據。在此過程中,用戶端之間通過加密方法保護各自的敏感數據。

近年來,隨着聯邦學習的發展,多方安全計算被改進后遷移到該系統中,通過加密參數來保護敏感數據。由於參數的數量比數據的規模少了好幾個數量級,因此大大減少了計算開銷。

雖然計算開銷方面的問題得到了一定緩解,但隨着研究人員的不斷探索,發現傳遞少量的模型梯度信息也能泄露原始數據。

針對這個問題,L. T. Phong等人[16]提出了在深度學習系統中對所有的梯度信息進行同態加密后將其保存到雲服務器上,以此來解決數據泄露問題。

在該系統(如圖10所示)中,有一個中央服務器和N個用戶終端,用戶端共同設置了公鑰pk和私鑰sk。其中私鑰sk對於雲服務器是不可知的,而對於所有用戶端是透明的。

每個用戶端都各自建立一個特有的TLS/SSL安全信道保證通信和同態加密的數據的完整性。

在系統運行過程中,用戶端主要執行以下四個步驟:

1、從服務器中下載加密后的所有密文(包括加密后的全局模型權重);

2、利用自己的私鑰sk對密文進行解密,並將解密后的權重替換本地模型中相對應的權重;

3、從本地數據中拿出一部分數據,利用更新后的權重去訓練本地模型;

4、對更新后的本地模型的梯度信息進行同態加密,並將其送入服務器中。

在上述過程中,用戶端向服務器只發送了加密的梯度,若能保證加密方案是CPA安全的,則不會出現用戶端數據泄露的情況。

 

圖10 基於異步梯度加密的深度學習模型(圖片來自論文:L. T. Phong, Y. Aono, T. Hayashi, L. Wang and S. Moriai, "Privacy-Preserving Deep Learning via Additively Homomorphic Encryption," in IEEE Transactions on Information Forensics and Security, vol. 13, no. 5, pp. 1333-1345, May 2018)

B、差分隱私

差分隱私技術最早由微軟研究者Dwork於2006年提出,其利用隨機噪聲將原始數據淹沒在其中,使攻擊者無法從數據庫中反推出原始數據。

鑒於差分隱私在數據隱私保護方面的優勢,研究人員將其遷移到聯邦學習系統中,通過將差分隱私和其他技術相結合,產生了許多隱私保護方面的模型。

研究人員[17]提出了一種DPGAN模型,將差分隱私技術應用到GAN模型中,解決了GAN模型泄露訓練樣本的潛在風險。

與其類似的DPFedAvgGAN[18]將生成模型、聯邦學習和差分隱私三項技術結合起來解決了樣本的隱私保護問題。

在DPFedAvgGAN中,生成模型利用深度學習了解原始數據的聯合分布並根據該分布生成特定的樣本;聯邦學習負責訓練並評價數據同時進一步優化生成模型;差分隱私和聯邦學習最后通過協同作用為用戶端的數據隱私提供保護。

此外,還有部分研究[19,20]將多方安全計算和差分隱私結合起來,在不損失用戶端數據隱私的前提下保證了輸出結果的准確率。

C、對抗性訓練

除了以上兩類常用的防御技術外,對抗性訓練技術也能有效地進行防御。對於攻擊者向模型注入惡意樣本來混淆機器學習模型的情況,對抗性訓練是一個很好的解決方案。

作為一種主動的防御方法,對抗性訓練從訓練階段就提升了模型的魯棒性,使其能辨認出各種形式的攻擊方式。

其中最典型的例子是Anti-GAN[21]模型。Anti-GAN利用WGANs在用戶端生成了虛假的訓練樣本,在一定程度上減少了推理攻擊的風險。

類似的FedGP[22]框架通過FedAvg算法訓練生成模塊(負責生成虛假樣本),然后利用預期的隱私損失評價數據泄露的風險。通過對對抗性訓練的充分研究,[23]發現對抗性訓練對於黑盒攻擊仍然表現不佳。

為了解決這個問題,研究人員引入了集成對抗性訓練,即利用數據增廣對訓練樣本增加一定的擾動。實驗發現對抗性訓練通過減少推理攻擊的風險有效地保護了用戶端的數據隱私。

此外,針對聯邦學習在移動終端應用中帶來的隱私泄露問題,[24]提出了一新的框架FEDXGB,充分利用秘鑰共享技術和為全局模型提供安全提升、安全預測等協議保證了數據隱私不被泄露。

03 現階段聯邦學習安全方面面臨的挑戰和相關的解決思路

(1)面臨的挑戰

考慮到聯邦學習的目的是讓中央服務器建立一個能反映目標特性的全局模型,同時限制服務器通過上傳的數據重構用戶的敏感數據,這就需要弄清楚哪些數據是敏感數據以及該數據的隱私級別。

針對聯邦學習系統中的安全風險,本文總結了以下幾個挑戰[25]:

A、本地差分隱私

傳統的差分隱私是將各方的原始數據集中到一個可信的數據中心,對計算結果添加噪聲后進行差分隱私。

由於難以找到可信的數據中心,因此提出了利用本地差分隱私直接在用戶數據集上做差分隱私,然后將其傳到數據中心進行整合,這樣就避免了原始數據的泄露問題。

雖然本地差分隱私在理論上證明了隱私保護的有效性,但是由於隨機噪聲的引入必須和原始數據相匹配,這需要整合用戶之間的數據,因此本地差分隱私在高維數據的應用中還是面臨着一些挑戰[26-28]。

B、混合模型的差分隱私

混合模型是根據用戶的信任偏好划分的多個模型,一般分為兩類——一是采用最少信任並提供最低實用性的模型,該模型可以應用在所有用戶端;二是采用最信任並提供很高實用性的模型,但這種模型只能應用在值得信任的用戶上。

在聯邦學習系統中采用混合模型的差分隱私能在減少用戶基數的同時不提供本地添加噪聲的隱私放大。

目前關於混合模型的差分隱私是基於用戶數據都來源於同一個分布[29-30]的假設。但在實際場景中,因為用戶偏好和數據之間的關系比較密切,因此有必要放寬這個假設來提升模型的實用性。

C、置亂模型

在聯邦學習系統中,若用戶是匿名的,置亂模型可以降低本地模型引入的噪聲,實現隱私放大效應。

雖然置亂模型可以通過弱化攻擊者的模型使差分隱私問詢的准確性進一步提升,但其自身存在兩個缺點。

第一,置亂模型缺乏一個可信的中間人。如果用戶不信任中央服務器,他們也不可能信任服務器授權的中間人。

第二,置亂模型的差分隱私保證在計算過程中隨着參與攻擊者數目的增加而減弱。由於攻擊者的數目對於服務器和用戶端都是不可知的,這就為用戶數據的隱私保護帶來一些不確定因素。

D、安全聚合協議

通過聚合用戶端上傳的數據來更新全局模型一直是聯邦學習的核心問題。理想的安全聚合算法能夠識別用戶上傳的異常更新數據,並在聚合過程中丟棄這些數據來保證全局模型輸出的准確性。

在早期的聯邦學習中,參數服務器直接將明文形式的梯度通過求和或者取平均值的方式聚合在一起,這樣雖能防止數據的直接泄露,但會讓攻擊者很容易獲得用戶端的敏感數據。

針對這個問題,研究人員提出了各種類型的安全聚合協議有效地應用到聯邦學習中。但在實際應用中,[31]部分安全協議還是存在以下幾個缺陷:

①大多數安全聚合協議都是在半誠實模型的假設上設計的;

②允許服務器監控每輪訓練的聚合過程,在此過程中有泄露敏感數據的風險;

③部分安全聚合協議對於稀疏向量的聚合表現不佳;

④缺乏強制用戶規范輸入數據的能力。

(2)解決思路

1.理解特定場景下隱私保護的需求從而制定相應的措施

由於目前部分聯邦學習系統需要從用戶端接收大量高緯度數據來處理復雜的學習任務,為了在保證數據安全的前提下按時完成相應的任務,需要在安全和計算開銷方面做一個折中。

在實際情況中,用戶端的所有數據並非都是敏感數據,可以考慮弄清各種場景下用戶數據的隱私保護級別后,以犧牲部分非重要的數據來減少不必要的計算開銷。

例如一個企業擁有一個大量的員工薪資數據庫,每個員工對應的具體薪酬是敏感數據。對於企業的數據隱私保護而言,只用采取措施避免數據庫中員工姓名和對應的薪酬這兩個維度的信息不泄露,即使犧牲其他非重要數據也可以高效地利用聯邦學習系統完成相關的任務。

又如在智能家居應用中,自動調溫器通過特定的程序識別到家里有人或無人時將其開啟或關閉,這些數據對於業主來說都是敏感數據,一旦被攻擊者獲取將會威脅業主的安全。

因此,根據隱私保護的需求只泄露部分不敏感的數據(如室內的溫度等)即可在保證用戶安全的前提下降低調溫器處理大量數據的計算開銷。

[32]中提供了隱私保護的框架,分析者可以參考該框架並結合自身對敏感數據的判斷對數據提供差異性的隱私保護。

此外,聯邦學習框架可以稍作修改,令終端用戶自己決定允許的推理攻擊,並把其整合到全局模型中為用戶提供更精准的服務。

2.利用行為研究制定相應的隱私保護機制

隱私保護很大程度上取決於用戶是否能明確地制定出自身的隱私標准。為了達到這個目的,可以從教育和個人偏好兩方面[25]對目標群體進行行為研究。

通過教育可使用戶明確隱私保護方面的相關技術和數據的使用過程。教育的目的達到后,需要從個人偏好方面使用戶提供能代表目標群體特征的高質量數據。

由於實驗條件的限制,目前在行為研究方面的文獻[33]較少。鑒於行為研究可以對用戶提供差異性的隱私保護,其未來將會廣泛地應用於聯邦學習系統中。

 

參考文獻

[1] MOTHUKURI, VIRAAJI, PARIZI, REZA M., POURIYEH, SEYEDAMIN, et al. A survey on security and privacy of federated learning[J]. Future generations computer systems: FGCS,2021. DOI:10.1016/j.future.2020.10.007.

[2] B. Biggio, B. Nelson, P. Laskov, Poisoning Attacks against Support Vector Machines,

https://arxiv.org/abs/1206.6389

[3] AN Bhagoji,S Chakraborty,P Mittal,S Calo, Analyzing Federated Learning through an Adversarial Lens,

https://arxiv.org/abs/1811.12470v4

[4] Minghong Fang, Xiaoyu Cao, Jinyuan Jia, Neil Zhenqiang Gong, Local Model Poisoning Attacks to Byzantine-Robust,

https://arxiv.org/abs/1911.11815v1

[5] E Bagdasaryan,A Veit,Y Hua,D Estrin,V Shmatikov, How To Backdoor Federated Learning,

https://arxiv.org/abs/1807.00459v3

[6] Briland Hitaj,Giuseppe Ateniese,Fernando Perez-Cruz, Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning,

https://arxiv.org/abs/1702.07464v3

[7] S. Truex, L. Liu, M. E. Gursoy, L. Yu and W. Wei, "Demystifying Membership Inference Attacks in Machine Learning as a Service," in IEEE Transactions on Services Computing, vol. 14, no. 6, pp. 2073-2089, 1 Nov.-Dec. 2021, doi: 10.1109/TSC.2019.2897554.

[8] B.Hitaj, G.Ateniese, F.Perez-Cruz,"Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning," in Proc of ACM CCS. ACM,201

[9] Z Wang,M Song,Z Zhang,Y Song,Q Wang,H Qi,Beyond Inferring Class Representatives: User-Level Privacy Leakage from Federated Learning,in: IEEE INFOCOM 2019-IEEE Conference on Computer Communications,2019,pp.2512-2520

[10] G. F. Cretu, A. Stavrou, M. E. Locasto, S. J. Stolfo and A. D. Keromytis, "Casting out Demons: Sanitizing

Training Data for Anomaly Sensors," 2008 IEEE Symposium on Security and Privacy (sp 2008), 2008, pp. 81-95, doi: 10.1109/SP.2008.11.

[11] Y Shen,S Sanghavi, Learning with Bad Training Data via Iterative Trimmed Loss Minimization,

https://arxiv.org/abs/1810.11874v2

[12] Koh, P.W., Steinhardt, J. & Liang, P. Stronger data poisoning attacks break data sanitization defenses. Mach

Learn (2021).

https://doi.org/10.1007/s10994-021-06119-y

[13] Shen, S., Tople, S., & Saxena, P. (2016). Auror: defending against poisoning attacks in collaborative deep learning systems. Proceedings of the 32nd Annual Conference on Computer Security Applications.

[14] S Li,Y Cheng,W Wang,Y Liu,T Chen,Learning to Detect Malicious Clients for Robust Federated Learning,

https://arxiv.org/abs/2002.00211

[15] D Li,J Wang, FedMD: Heterogenous Federated Learning via Model Distillation,

https://arxiv.org/abs/1910.03581

[16] Phong, Le Trieu; Aono, Yoshinori; Hayashi, Takuya , Privacy-Preserving Deep Learning via Additively Homomorphic Encryption, doi: 10.1109/TIFS.2017.2787987

[17] L Xie,K Lin,S Wang,F Wang,J Zhou, Differentially Private Generative Adversarial Network,

https://arxiv.org/abs/1802.06739

[18] S Augenstein,et al, Generative Models for Effective ML on Private, Decentralized Datasets,

https://arxiv.org/abs/1911.06679v2

[19] Stacey Truex, Nathalie Baracaldo, et al, A Hybrid Approach to Privacy-Preserving Federated Learning,

https://arxiv.org/abs/1812.03224

[20] M. Hao, H. Li, G. Xu, S. Liu and H. Yang, "Towards Efficient and Privacy-Preserving Federated Deep Learning," ICC 2019 - 2019 IEEE International Conference on Communications (ICC), 2019, pp. 1-6, doi: 10.1109/ICC.2019.8761267.

[21] X. Luo,X. Zhu,Exploiting Defenses against GAN-Based Feature Inference Attacks in Federated Learnin (2020).arXiv:2004.12571

[22] A Triastcyn,B Faltings, Federated Generative Privacy,

https://arxiv.org/abs/1910.08385v1

[23] Florian Tramèr, Alexey Kurakin, et al, Ensemble Adversarial Training: Attacks and Defenses,

https://arxiv.org/abs/1705.07204

[24] Z. Wang, Y. Yang,Y. Liu,X. Lin,B.B.Gupta, J.-F.Ma, Cloud-based federated boosting for mobile crowdsensing. ArXiv abs/2005.05304

[25] Peter Kairouz, et al, Advances and Open Problems in Federated Learning,

https://arxiv.org/abs/1912.04977

[26] J. C. Duchi, M. I. Jordan and M. J. Wainwright, "Local privacy and statistical minimax rates," 2013 51st Annual Allerton Conference on Communication, Control, and Computing (Allerton), 2013, pp. 1592-1592, doi: 10.1109/Allerton.2013.6736718.

[27] Kairouz, Peter,Oh, Sewoong,Viswanath, Pramod, Extremal Mechanisms for Local Differential Privacy,

https://arxiv.org/abs/1407.1338v1

[28] M. Ye and A. Barg, "Optimal Schemes for Discrete Distribution Estimation Under Locally Differential Privacy," in IEEE Transactions on Information Theory, vol. 64, no. 8, pp. 5662-5676, Aug. 2018, doi: 10.1109/TIT.2018.2809790.

[29] A Beimel,A Korolova,K Nissim,O Sheffet,U Stemmer, The power of synergy in differential privacy: Combining a small curator with local randomizers,

https://arxiv.org/abs/1912.08951v2

[30] B Avent,Y Dubey,A Korolova, The Power of The Hybrid Model for Mean Estimation,

https://arxiv.org/abs/1811.12040

[31] Keith Bonawitz,Vladimir Ivanov,et al, Practical Secure Aggregation for Privacy-Preserving Machine Learning, Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, October 2017; Pages 1175–1191;

https://doi.org/10.1145/3133956.3133982

[32] D Kifer,A Machanavajjhala, Pufferfish: A framework for mathematical privacy definitions, ACM Transactions on Database Systems, Volume 39, Issue 1, January 2014, Article No.: 3pp 1–36

https://doi.org/10.1145/2514689

[33] ABOWD, JOHN M., SCHMUTTE, IAN M.. An Economic Analysis of Privacy Protection and Statistical Accuracy as Social Choices[J]. The American Economic Review,2019(1). DOI:10.1257/aer.20170627.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM