1.聯邦學習定義
隱私保護的分布式機器學習框架,各參與方無需共享數據資源,就可以進行數據聯合訓練,建立最終機器學習模型。(合作共贏模式,共同富裕策略)
特征:
- 參與方數據保留在本地,一定程度上保證數據安全性
- 參與者聯合訓練模型,共同富裕
- 參與方地位平等
- 與中心化的機器學習建模效果相差不大 $ |{V_{fed}} - {V_{sum}}|< \delta $
每個參與方生成自己模型,再去聚合全局模型
聯邦學習亮點在於保障隱私信息和數據安全,雖然增加了通訊等開銷,但是通過本機進行模型訓練,然后加密機制下的參數交換與安全聚合,最終實現一定程度上的隱私保護。
2.FL與DP 區別
FL的隱私保護通過HE加密等手段完成,數據和模型本身不進行傳輸,而且數據是准確的。
DP通過添加噪音,k-匿名、l-多樣性、t-緊密性采用概括化方法模糊敏感屬性,這些都進行了數據傳輸,而且處理后的數據是接近准確的。
3.FL與Distributed ML 區別
DistributedML包括機器學習的訓練數據分布式存儲、計算任務分布式運行、模型結果分布式發布,參數服務器作為加速機器學習模型訓練的一種工具,將數據存儲在分布式工作節點上,通過一個中心式調度節點調配數據分布和分配計算資源,以便高效獲得最終訓練模型。這些和FL相似。
白皮書提到FL不同於 參與方完全自治且更強調對數據擁有這的數據隱私保護。
FL面向海量終端,其不同於DistributedML:具有昂貴的通訊、系統的異構性、統計的異質性等特征。
4. FL與Blockchain 關系
都是去中心化的架構,區塊鏈是一種完全P2P網絡結構;FL中第三方承擔聚合模型等功能。
都涉及到加密算法,區塊鏈包括Hash、非對稱加密;FL使用HE。
Blockchain在各個節點保存完整數據;FL數據只保存在本地。
Blockchain不同節點競爭記賬獲得獎勵;FL依據每一方的貢獻分配獎勵。
Paper List:
McMahan[15]指出聯邦學習可以通過差分隱私,多方安全計算,或它們的結合等技術來提供更強的安全保障。
Bonawitz[16]指出聯邦學習中,可以利用多方安全計算以安全的方式計算來自用戶設備的模型參數更新的總和。
Truex[17]中提出了一種利用差分隱私和多方安全計算來保護隱私的聯邦學習方法。
Liu[18]提出將加性同態加密 (AHE) 應用於神經網絡的多方計算。
5.FL分類與框架
- 橫向:按橫向用戶維度切分,取特征相同 用戶不完全相同的數據訓練。同行不同地
- 縱向:按縱向特征維度切分,取雙方用戶相同 特征不完全相同的數據訓練。同地不同行
- 遷移:不對數據進行切分,適用數據或標簽不足的場景。
6.應用場景
車險定價、信貸風控、銷量預測、視覺安防、醫療診斷、隱私保護廣告、自動駕駛
7.研究方向
從攻擊對象划分
- 客戶端攻擊:參與迭代,檢查收到消息和模型、篡改訓練過程
- 服務端攻擊:參與迭代,檢查收到消息和梯度更新、篡改訓練過程
從攻擊手段划分
- 模型更新攻擊:敵手控制客戶端產生任意輸出(拜占庭攻擊),導致模型損失函數$ \mathcal{L}$收斂到次優模型,甚至模型發散
- 數據攻擊:篡改客戶端數據
- 逃逸攻擊:構造特定輸入樣本,欺騙目標系統,完成模型推理