破解數據匱乏現狀:縱向聯邦學習場景下的邏輯回歸(LR)


摘要:主要介紹了華為雲可信智能計算服務(TICS)采用的縱向聯邦邏輯回歸(LR)方案。

本文分享自華為雲社區《縱向聯邦學習場景下的邏輯回歸(LR)》,作者: 汽水要加冰。

海量訓練數據是人工智能技術在各個領域成功應用的重要條件。例如,計算機視覺和商務經融推薦系統中的 AI 算法都依靠大規模標記良好的數據才能獲得較好的推理效果。然而在醫療、銀行以及一些政務領域中,行業內對數據隱私的保護越來越強,造成可用數據嚴重匱乏的現狀。針對上述問題,華為雲可信智能計算服務( TICS)專為打破銀行、政企等行業的數據壁壘,實現數據安全共享,設計了多方聯邦學習方案。

一、什么是邏輯回歸?

回歸是描述自變量和因變量之間相互依賴關系的統計分析方法。線性回歸作為一種常見的回歸方法,常用作線性模型(或線性關系)的擬合。

邏輯回歸(logistic regression)雖然也稱為回歸,卻不是一種模型擬合方法,而是一種簡單的“二分類”算法。具有實現簡單,算法高效等諸多優點。

1.1 線性回歸(linear regression)

圖1.1、1.2分別表示二維和三維線性回歸模型,圖1.1的擬合直接(藍線)可表示為 y=ax+b,所有數據點(紅點)到直線的總歐式距離最短,歐式距離常用作計算目標損失函數,進而求解模型;類似的,圖1.2的所有數據點到二維平面的總歐式距離最短。所以線性回歸模型通常可以表示為:

其中θ表示模型系數。

1.2 邏輯回歸(LR)

LR是一種簡單的有監督機器學習算法,對輸入x,邏輯回歸模型可以給出 y<0 or y>0 的概率,進而推斷出樣本為正樣本還是負樣本。

LR引入sigmoid函數來推斷樣本為正樣本的概率,輸入樣本 x 為正樣本的概率可以表示為:P(y|x) = g(y),其中 g() 為sigmoid函數,

曲線圖如圖1.3所示,輸出區間為0~1:

圖1.3 sigmoid曲線

對於已知模型 θ 和樣本 x,y=1的概率可以表示為:

所以sigmoid尤其適用於二分類問題,當 g(y) > 0.5 時,表示 P(y=1|x) > 0.5,將其判為正樣本,對應 y>0 ;反之,當 g(y) < 0.5 時,表示 P(y=1|x) < 0.5,將其判為負樣本,對應 y<0。

1.3 LR損失函數

LR采用對數損失函數,對於訓練集x∈S,損失函數可以表示為(參考https://zhuanlan.zhihu.com/p/44591359):

梯度下降算法是LR模型的經典解法之一,模型迭代更新的表達式如下:

其中

l()為目標損失函數,本質為平均對數損失函數。

  • S'為批處理數據集(大小為batchsize),通過批處理方式引入隨機擾動,使得模型權重更加快速逼近最優值。
  • α為學習率,直接影響模型的收斂速度,學習率過大會導致loss左右震盪無法達到極值點,學習率太小會導致loss收斂速度過慢,長時間找不到極值點。

二、縱向聯邦學習場景下的LR

關於縱向聯邦學習的介紹已經屢見不鮮,市面上也涌現出很多優秀的產品,比如FATE、華為可信智能計算TICS等。縱向聯邦可以實現多用戶在不暴露己方數據的前提下,共享數據和特征,訓練出精度更高的模型,對於金融和政務等眾多行業具有重要意義。

圖2.1 縱向聯邦LR

2.1 LR的縱向聯邦實現

縱向聯邦學習的參與方都是抱着共享數據、不暴露己方數據的目的加入到聯邦中,所以任何敏感數據都必須經過加密才能出己方信任域(圖2.1,參考https://arxiv.org/pdf/1711.10677.pdf),這就引入了同態加密算法。同態加密為密文計算提供了可行性,同時也一定程度上影響了機器學習算法的性能。常見的同態加密庫包括seal、paillier等。

LR的縱向聯邦流程如圖2.2所示,host表示只有特征的一方,guest表示包含標簽的一方。

圖 2.2 縱向聯邦LR算法實現流程

  • 在訓練開始之前,作業雙方需要交換同態公鑰。
  • 每輪epoch(迭代)的batch(一輪batchsize的計算為一個batch)循環中,包含calEncryptedU-->calEncryptedGradient-->decryptGradient-->updateLrModel四步,guest和host都需要按此順序執行一遍( 流程圖中只體現了guest作為發起方的執行流程)。
  • A2步驟中梯度加隨機噪聲的目的是為了防止己方U泄露,造成安全問題。

由於同態加密計算只支持整數、浮點數的加法和乘法,所以將1.3中的模型迭代公式中的指數部分表示成泰勒表達式形式:

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM