破解數據匱乏現狀：縱向聯邦學習場景下的邏輯回歸（LR）

本文轉載自查看原文 2021-11-25 14:05 202 華為雲新鮮技術分享/ 數據安全/ 縱向聯邦學習/ 數據隱私/ 邏輯回歸/ 聯邦學習

摘要：主要介紹了華為雲可信智能計算服務（TICS）采用的縱向聯邦邏輯回歸（LR）方案。

本文分享自華為雲社區《縱向聯邦學習場景下的邏輯回歸（LR）》，作者：汽水要加冰。

海量訓練數據是人工智能技術在各個領域成功應用的重要條件。例如，計算機視覺和商務經融推薦系統中的 AI 算法都依靠大規模標記良好的數據才能獲得較好的推理效果。然而在醫療、銀行以及一些政務領域中，行業內對數據隱私的保護越來越強，造成可用數據嚴重匱乏的現狀。針對上述問題，華為雲可信智能計算服務（ TICS）專為打破銀行、政企等行業的數據壁壘，實現數據安全共享，設計了多方聯邦學習方案。

一、什么是邏輯回歸？

回歸是描述自變量和因變量之間相互依賴關系的統計分析方法。線性回歸作為一種常見的回歸方法，常用作線性模型（或線性關系）的擬合。

邏輯回歸（logistic regression）雖然也稱為回歸，卻不是一種模型擬合方法，而是一種簡單的“二分類”算法。具有實現簡單，算法高效等諸多優點。

1.1 線性回歸（linear regression）

圖1.1、1.2分別表示二維和三維線性回歸模型，圖1.1的擬合直接（藍線）可表示為 y=ax+b，所有數據點（紅點）到直線的總歐式距離最短，歐式距離常用作計算目標損失函數，進而求解模型；類似的，圖1.2的所有數據點到二維平面的總歐式距離最短。所以線性回歸模型通常可以表示為：

其中θ表示模型系數。

1.2 邏輯回歸（LR）

LR是一種簡單的有監督機器學習算法，對輸入x，邏輯回歸模型可以給出 y<0 or y>0 的概率，進而推斷出樣本為正樣本還是負樣本。

LR引入sigmoid函數來推斷樣本為正樣本的概率，輸入樣本 x 為正樣本的概率可以表示為：P(y|x) = g(y)，其中 g() 為sigmoid函數，

曲線圖如圖1.3所示，輸出區間為0~1：

圖1.3 sigmoid曲線

對於已知模型 θ 和樣本 x，y=1的概率可以表示為：

所以sigmoid尤其適用於二分類問題，當 g(y) > 0.5 時，表示 P(y=1|x) > 0.5，將其判為正樣本，對應 y>0 ；反之，當 g(y) < 0.5 時，表示 P(y=1|x) < 0.5，將其判為負樣本，對應 y<0。

1.3 LR損失函數

LR采用對數損失函數，對於訓練集x∈S，損失函數可以表示為（參考https://zhuanlan.zhihu.com/p/44591359）：

梯度下降算法是LR模型的經典解法之一，模型迭代更新的表達式如下：

其中

l()為目標損失函數，本質為平均對數損失函數。

S'為批處理數據集(大小為batchsize)，通過批處理方式引入隨機擾動，使得模型權重更加快速逼近最優值。
α為學習率，直接影響模型的收斂速度，學習率過大會導致loss左右震盪無法達到極值點，學習率太小會導致loss收斂速度過慢，長時間找不到極值點。

二、縱向聯邦學習場景下的LR

關於縱向聯邦學習的介紹已經屢見不鮮，市面上也涌現出很多優秀的產品，比如FATE、華為可信智能計算TICS等。縱向聯邦可以實現多用戶在不暴露己方數據的前提下，共享數據和特征，訓練出精度更高的模型，對於金融和政務等眾多行業具有重要意義。

圖2.1 縱向聯邦LR

2.1 LR的縱向聯邦實現

縱向聯邦學習的參與方都是抱着共享數據、不暴露己方數據的目的加入到聯邦中，所以任何敏感數據都必須經過加密才能出己方信任域（圖2.1，參考https://arxiv.org/pdf/1711.10677.pdf），這就引入了同態加密算法。同態加密為密文計算提供了可行性，同時也一定程度上影響了機器學習算法的性能。常見的同態加密庫包括seal、paillier等。

LR的縱向聯邦流程如圖2.2所示，host表示只有特征的一方，guest表示包含標簽的一方。

圖 2.2 縱向聯邦LR算法實現流程

在訓練開始之前，作業雙方需要交換同態公鑰。
每輪epoch（迭代）的batch（一輪batchsize的計算為一個batch）循環中，包含calEncryptedU-->calEncryptedGradient-->decryptGradient-->updateLrModel四步，guest和host都需要按此順序執行一遍（流程圖中只體現了guest作為發起方的執行流程）。
A2步驟中梯度加隨機噪聲的目的是為了防止己方U泄露，造成安全問題。

由於同態加密計算只支持整數、浮點數的加法和乘法，所以將1.3中的模型迭代公式中的指數部分表示成泰勒表達式形式：

點擊關注，第一時間了解華為雲新鮮技術~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 聯邦學習之縱向聯邦學習機器學習（四）—邏輯回歸LR 邏輯回歸LR 線性回歸、邏輯回歸（LR）每日一個機器學習算法——LR(邏輯回歸) Python實現LR(邏輯回歸) 邏輯回歸（LR）總結復習細品 - 邏輯回歸（LR）* 邏輯回歸算法的原理及實現(LR) 邏輯回歸模型(Logistic Regression, LR)基礎