2020.9.11聯邦學習基礎概念篇


聯邦學習主要用於解決小數據及數據孤島問題。谷歌在2016年提出了針對手機終端的聯邦學習,微眾銀行AI團隊則從金融行業實踐出發,關注跨機構跨組織的大數據合作場景,首次提出“聯邦遷移學習”的解決方案,將遷移學習和聯邦學習結合起來。

數據孤島:數據間缺乏關聯性,數據庫彼此無法兼容。專業人士把數據孤島分為物理性邏輯性兩種。物理性的數據孤島指的是,數據在不同部門相互獨立存儲,獨立維護,彼此間相互孤立,形成了物理上的孤島。邏輯性的數據孤島指的是,不同部門站在自己的角度對數據進行理解和定義,使得一些相同的數據被賦予了不同的含義,無形中加大了跨部門數據合作的溝通成本。)

 

聯邦學習有三大構成要素:數據源、聯邦學習系統、用戶。

 

 

聯邦學習的分類 

根據參與各方數據源分布的情況不同,聯邦學習可以被分為三類:橫向聯邦學習、縱向聯邦學習、聯邦遷移學習。

橫向聯邦學習:在兩個數據集的用戶特征重疊較多而用戶重疊較少的情況下,我們把數據集按照橫向(即用戶維度)切分,並取出雙方用戶特征相同而用戶不完全相同的那部分數據進行訓練。比如業務相同但是分布在不同地區的兩家企業,它們的用戶群體分別來自各自所在的地區,相互的交集很小。但是,它們的業務很相似,因此,記錄的用戶特征是相同的。

 

縱向聯邦學習:在兩個數據集的用戶重疊較多而用戶特征重疊較少的情況下,我們把數據集按照縱向(即特征維度)切分,並取出雙方用戶相同而用戶特征不完全相同的那部分數據進行訓練。比如有兩個不同機構,一家是某地的銀行,另一家是同一個地方的電商。它們的用戶群體很有可能包含該地的大部分居民,因此用戶的交集較大。但是,由於銀行記錄的都是用戶的收支行為與信用評級,而電商則保有用戶的瀏覽與購買歷史,因此它們的用戶特征交集較小

 

 

聯邦遷移學習在兩個數據集的用戶與用戶特征重疊都較少的情況下,我們不對數據進行切分,而可以利用遷移學習來克服數據或標簽不足的情況。這種方法叫做聯邦遷移學習。

比如有兩個不同機構,一家是位於中國的銀行,另一家是位於美國的電商。由於受到地域限制,這兩家機構的用戶群體交集很小。同時,由於機構類型的不同,二者的數據特征也只有小部分重合。在這種情況下,要想進行有效的聯邦學習,就必須引入遷移學習,來解決單邊數據規模小和標簽樣本少的問題,從而提升模型的效果。

 

 

聯邦學習的過程分為自治和聯合兩部分。

自治的部分:首先,兩個或兩個以上的的參與方們在各自終端安裝初始化的模型,每個參與方擁有相同的模型,之后參與方們可以使用當地的數據訓練模型。由於參與方們擁有不同的數據,最終終端所訓練的模型也擁有不同的模型參數。

聯合的部分:不同的模型參數將同時上傳到雲端,雲端將完成模型參數的聚合與更新,並且將更新好的參數返回到參與方的終端,各個終端開始下一次的迭代。以上的程序會一直重復,直到整個訓練過程的收斂。

現以包含兩個數據擁有方(即企業A和B)的場景為例來介紹聯邦學習的系統構架,該構架可擴展至包含多個數據擁有方的場景。假設企業 A 和 B 想聯合訓練一個機器學習模型,它們的業務系統分別擁有各自用戶的相關數據。此外,企業 B 還擁有模型需要預測的標簽數據。出於數據隱私和安全考慮, A 和 B 無法直接進行數據交換。此時,可使用聯邦學習系統建立模型,系統構架如圖所示:

第一部分:加密樣本對齊。

由於兩家企業的用戶群體並非完全重合,系統基於加密的用戶樣本對齊技術(如RSA),在A和B不公開各自數據的前提下確認雙方的共有用戶,並且不暴露不互相重疊的用戶。以便聯合這些用戶的特征進行建模。

第二部分:加密模型訓練。

在確定共有用戶群體后,就可以利用這些數據訓練機器學習模型。為了保證訓練過程中數據的保密性,有時需要借助第三方協作者C進行加密訓練。以線性回歸模型為例,訓練過程可分為以下 4 步:

第①步:協作者C把公鑰分發給A和B,用以對訓練過程中需要交換的數據進行加密;

第②步:A和B之間以加密形式交互用於計算梯度的中間結果;

第③步:A和B分別基於加密的梯度值進行計算,同時 B 根據其標簽數據計算損失,並把這些結果匯總給C。 C 通過匯總結果計算總梯度並將其解密;

第④步: C將解密后的梯度分別回傳給A和B; A和B根據梯度更新各自模型的參數。

迭代上述步驟直至損失函數收斂,這樣就完成了整個訓練過程。在樣本對齊及模型訓練過程中,A和B各自的數據均保留在本地,且訓練中的數據交互也不會導致數據隱私泄露。因此,雙方在聯邦學習的幫助下得以實現合作訓練模型。

 
 

第三部分:效果激勵。

聯邦學習的一大特點就是它解決了為什么不同機構要加入聯邦共同建模的問題,即建立模型以后模型的效果會在實際應用中表現出來,並記錄在永久數據記錄機制(如區塊鏈)上。提供的數據多的機構會看到模型的效果也更好,這體現在對自己機構的貢獻和對他人的貢獻。這些模型對他人效果在聯邦機制上以分給各個機構反饋,並繼續激勵更多機構加入這一數據聯邦。

 
 
參考作者:hellompc1
鏈接:https://www.jianshu.com/p/078ec3ce3076
來源:簡書

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM