1.1 邏輯回歸原理詳解
1.1.1 LR原理講解+公式推導
從公式推導中詳細講解邏輯回歸算法的原理。
線性回歸模型:

邏輯回歸是用來估計一個實例屬於某個特定類別的概率,是一個二分類算法,如果預估概率大於等於50%,則模型預測該實例為正類,反之,則預測為負類。
則需要把y從負無窮大到正無窮大映射為概率p從0到1,可以設置為:

則:

兩邊取e,整理后,得到邏輯函數:
一旦邏輯回歸模型估算出實例x屬於正類的概率為p,那么就可以輕松推斷出y值。

假設:

則:

我們需要對系數θ估計,可以采用極大似然估計(MLE),通過最大化對數似然值來估計參數。
注:極大似然估計定義見下文詳細講解。

兩邊取對數,連乘會改為連加。
單個訓練實例的成本函數:
當p接近於0時,-log(p)就會變得非常大,如果模型估計一個正類的概率接近於0,成本將會變得很高。同理,估計一個負類實例的概率接近於1,成本也會變得非常高。
整個訓練集的成本函數即為訓練實例的平均成本。邏輯回歸成本函數表示如下。
邏輯回歸成本函數(log損失函數):
這是一個凸函數,通過梯度上升能夠找出全局最大值。(只要學習率不是太高,又可以長時間等待)
對logL求某個系數θ的偏導:

手寫過程如下所示:

即:邏輯回歸成本函數的偏導數為每個實例真實值與預測值的誤差,將其乘以第j個特征值,並求和。
那么怎么獲得系數呢?通過
這個函數開口向下,使用梯度上升算法,獲得全局最大值。

:學習率,自己給定,為固定值,可調整,不宜過高。
:對求偏導
θ:初始化一個任意值
θ初始化一個值后,可以計算得到預測的y值,計算預測誤差,得到偏導,通過梯度上升算法更新θ值。
我們反過來回顧下:
通過梯度上升算法獲得擬合效果最好的系數θ,根據sigmoid函數,輸入特征X代入,得到概率p值,通過P值是否大於0.5,最終得到預測結果y。
1.1.2 邏輯回歸的應用場景和優缺點
1.1.2.1 應用場景
- Logistic回歸是一種用於解決二分類問題的機器學習方法,是一種判別模型:表現為直接對條件概率P(y|x)建模,而不關心背后的數據分布P(x,y)
- 用於估計某種事物的可能性。比如某用戶購買某商品的可能性、某病人患有某種疾病的可能性、以及某廣告被用戶點擊的可能性等。
1.1.3 優缺點
1.1.3.1 優點
- 系數表示該特征的權重大小,可解釋性強,原理基於線性回歸,易於理解。
- 計算代價不高
1.1.3.2 缺點
- 容易欠擬合,分類精度可能不高
1.1.4 專業名詞介紹
1.1.4.1 極大似然估計
極大似然估計,又稱最大似然估計。
極大似然估計的原理,用一張圖片來說明,如下圖所示:

試驗是取出一個球是黑球,第一印象就是這個黑球最像是從乙箱取出來的,這個推斷符合人們的經驗事實。“最像”就是“最大似然”之意,就是概率性是最大的。
總而言之,極大似然估計的目的就是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。
原理:極大似然估計是建立在極大似然原理的基礎上的一個統計方法,是概率論在統計學中的應用。極大似然估計提供了一種給定觀察數據來評估模型參數的方法,即:“模型已定,參數未知”。通過若干次試驗,觀察其結果,利用試驗結果得到某個參數值能夠使樣本出現的概率為最大,則稱為極大似然估計。以下僅介紹總體X為離散型的情況。
若總體X(即輸入特征)屬離散型,其分布律
已知(即輸出結果y已知), θ為待估參數,設
為來自X的樣本,則
的聯合分布律為
又設
是相應於樣本
的一個樣本值,即事件
發生的概率為:
如果
是參數空間中能使似然函數
最大的θ值,則應該是“最可能”的參數值,那么就是θ的極大似然估計量。它是樣本集的函數,記作:

稱作極大似然函數估計值。
1.1.4.2 凸函數、凹函數
1.1.4.2.1 函數凹凸性定義
以下為國內的凹凸性定義,與國外凹凸性定義相反。
設
在區間I上有定義
(1) 若對任意的
,有

則稱
在
內為凸函數,如圖1-3-3所示。

(2) 若對任意的
,有

則稱
在
內為凹函數,如圖1-3-4所示。
1.1.4.2.2 函數凹凸判別法
定理:
(1) 若在
內有
,則
在
內為凸函數
(2) 若在
內有
,則
在
內為凹函數
1.1.4.2.3 邏輯回歸目標函數是凸函數證明
目標函數:

一階偏導:

證明過程見LR公式推導部分。
二階偏導:

由於
,即
,則
恆成立,所以目標函數是凸函數。
