簡述:
1. LR 本質上是對正例負例的對數幾率做線性回歸,因為對數幾率叫做logit,做的操作是線性回歸,所以該模型叫做Logistic Regression。
2. LR 的輸出可以看做是一種可能性,輸出越大則為正例的可能性越大,但是這個概率不是正例的概率,是正例負例的對數幾率。
3. LR的label並不一定要是0和1,也可以是-1和1,或者其他,只是一個標識,標識負例和正例。
4. Linear Regression和Logistic Regression的區別: 這主要是由於線性回歸在整個實數域內敏感度一致,而分類范圍,需要在[0,1]之內。而邏輯回歸就是一種減小預測范圍,將預測值限定為[0,1]間的一種回歸模型,其回歸方程與回歸曲線如下圖所示。邏輯曲線在z=0時,十分敏感,在z>>0或z<<0處,都不敏感,將預測值限定為(0,1)。
5. 模型非常簡單。應用到線上時,prediction的計算非常容易做。在O(1)的時間復雜度之內就能夠給出模型的預測值,這對於線上數據暴風雨般襲來的時候非常有用。
6. 模型可解釋性強。對於LR模型,每個特征xi的參數wi就是該特征的權重,wi越大,則特征權重越大;越小,則特征權重越小。因此LR的模型往往非常直觀,而且容易debug,而且也容易手動修改。
7. 模型的輸出平滑。由於Logistic function的作用,LR的輸出值是(0,1)之間的連續值,更重要的是,這個值能從某種角度上表示樣本x是正例的可能性, 輸出值越接近1,則樣本是正例的可能性就越大,輸出值越接近0,樣本是負例的可能性就越大。
詳細理解Logistic Regression:
1. 從最大似然估計 (MLE)來理解:(以正負label為1,0來舉例)
直覺上,一個線性模型的輸出值 y 越大,這個事件 P(Y=1|x) 發生的概率就越大。 另一方面,我們可以用事件的幾率(odds)來表示事件發生與不發生的比值,假設發生的概率是 p ,那么發生的幾率(odds)是 p/(1-p) , odds 的值域是 0 到正無窮,幾率越大,發生的可能性越大。將我們的直覺與幾率聯系起來的就是下面這個(log odds)或者是 logit 函數:

進而可以求出概率 p 關於 w 點乘 x 的表示:

這就是傳說中的 sigmoid function 了,以 w 點乘 x 為自變量,函數圖像如下:

Logsitic regression 輸出的是分到每一類的概率,參數估計的方法自然就是最大似然估計 (MLE) 咯。對於訓練樣本來說,假設每個樣本是獨立的,輸出(標簽)為 y = {0, 1},樣本的似然函數就是將所有訓練樣本 label 對應的輸出節點上的概率相乘, 令 p = P(Y=1|x) ,如果 y = 1, 概率就是 p, 如果 y = 0, 概率就是 1 - p , 將這兩種情況合二為一,得到似然函數:

下面就是求極值,邏輯回歸學習中通常采用的方法是梯度下降法 和 牛頓法。

2. 從最小化損失函數來理解:(以正負label為1,-1來舉例)
LR 的基本假設是數據類別間是由一個線性的 decision boundary 隔開的,換句話說
再結合
可以解得:
在 training data 上進行 maximum log-likelihood 參數估計是
這個 binary 的情況所具有的特殊形式還可以從另一個角度來解釋:先拋開 LR,直接考慮 Empirical Risk Minimization (ERM) 的訓練規則,也就是最小化分類器在訓練數據上的 error:
但是這是個離散的目標函數優化非常困難,所以我們尋求函數的一個 upper bound
,然后去最小化
當取(該函數通常稱作 log loss)時 (如果要嚴格地作為一個 upper bound,我們需要使用以 2 為底的對數。不過由於只是對 loss function 做一個常數縮放,對優化結果並沒有什么影響,所以方便起見我們實際使用自然對數。),即得到同上述一樣的式子,也就是 LR 的目標函數,並且我們接下來會看到,這個 ERM 的 upper bound 是易於優化的。順便提一句,通過選擇其他的 upper bound,我們會導出其他一些常見的算法,例如 Hinge Loss 對應 SVM、exp-loss 對應 Boosting。注意到 log loss 是 convex 的,有時候我們還會加上一個 regularizer:
此時目標函數是 strongly convex 的。接下來我們考慮用 gradient descent 來對目標函數進行優化。首先其 Gradient 是
PS:下圖中是各個損失函數,有最原始的0-1損失函數,以及用來在實際情況中作為其upper bound的替代損失函數,如 log loss,hinge loss,exp loss。
