Logistic Regression
一、內容概要
- Classification and Representation
- Classification
- Hypothesis Representation
- Decision Boundary
- Logistic Regression Model
- 損失函數(cost function)
- 簡化損失函數和梯度下降算法
- Advanced Optimization(高級優化方法)
- Solving the problem of Overfitting
- 什么是過擬合?
- 正則化損失函數(cost function)
- 正則化線性回歸(Regularized Linear Regression)
- 正則化邏輯回歸(Regularized Logistic Regression)
二、重點&難點
1. Classification and Representation
1) Hypothesis Representation
這里需要使用到sigmoid函數--g(z):
\[\begin{equation} h_θ(x) = g(θ^Tx) \end{equation} \]
\[\begin{equation} z = θ^Tx \end{equation} \]
\[\begin{equation} g(z) = \frac{1}{1+e^{-z}} \end{equation} \]
2) Decision Boundary
決策邊界:
\[h_θ(x) ≥ 0.5 → y=1 \]
\[h_θ(x) < 0.5 → y=0 \]
等價於
\[g(z) ≥ 0.5 → y=1 \]
\[g(z) < 0.5 → y=0 \]
等價於
\[z ≥0 → y=1 \]
\[z < 0 → y=0 \]
2. Logistic Regression Model
1) 邏輯回歸的損失函數
這里之所以再次提到損失函數,是因為線性回歸中的損失函數會使得輸出呈現起伏,造成許多局部最優值,也就是說線性回歸中的cost function在運用到邏輯回歸時,將可能不再是凸函數。
邏輯回歸的cost function如下:
\[J_θ = \frac{1}{m} \sum {Cost}( h_θ(x^{(i)}, y^{(i)} ) ) \]
\[{Cost}(h_θ(x), y) ) = - log(h_θ(x)) \quad \quad if \quad y=1 \]
\[{Cost}(h_θ(x), y) ) = - log(1 - h_θ(x)) \quad if \quad y=0 \]
結合圖來理解:
- y=1
由上圖可知,y=1,hθ(x)是預測值,
- 當其值為1時,表示預測正確,損失函數為0;
- 當其值為0時,表示錯的一塌糊塗,需要大大的懲罰,所以損失函數趨近於∞。
- y=0
上圖同理
2) Simplified Cost Function and Gradient Descent
- 損失函數
cost function
\[Cost(h_θ(x), y) = -ylog(h_θ(x)) - (1-y)log(1-h_θ(x)) \]
Jθ
\[J_θ=-\frac{1}{m} \sum Cost(h_θ(x), y) \]
\[\quad =-\frac{1}{m} \sum [-y^{i}log(h_θ(x^{(i)})) - (1-y^i)log(1-h_θ(x^{(i)}))] \]
- 梯度函數
3)高級優化方法
如圖左邊顯示的是優化方法,其中后三種是更加高級的算法,其優缺點由圖郵編所示:
優點
- 不需要手動選擇α
- 比梯度下降更快
缺點
- 更加復雜
后面三種方法只需了解即可,老師建議如果你不是專業的數學專家,沒必要自己使用這些方法。。。。。。當然了解一下原理也是好的。
3. Solving the problem of Overfitting
1) 過擬合
主要說一下過擬合的解決辦法:
1)減少特征數量
- 手動選擇一些需要保留的特征
- 使用模型選擇算法(model selection algorithm)
2)正則化 - 保留所有特征,但是參數θ的數量級(大小)要減小
- 當我們有很多特征,而且這些特征對於預測多多少少會由影響,此時正則化怎能起到很大的作用。
2) 正則化損失函數
圖示右邊很明顯是過擬合,因此為了糾正加入了正則化項:1000·θ32,為了使得J(θ)最小化,所以算法會使得θ3趨近於0,θ4也趨近於0。
正則化損失函數表達式:
\[J(θ)=\frac{1}{2m} [\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2] \]
\[min_θ [\frac{1}{2m} (\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2)] \]
3) 正則化線性回歸
- 正則化梯度下降:
\[J(θ)=\frac{1}{2m} [\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2] \]
\[\frac{∂J_θ}{∂θ_j} = \frac{1}{m} \sum_{i=1}^m( h_θ(x^{(i)} ) - y^{(i)} )x_j^{(i)} + \frac{λ}{m}θ_j \]
Repeat{
\[θ_0 := θ_0 - α\frac{1}{m}\sum_{i=1}{m}( h_θ(x^{(i)} ) - y^{(i)} )x_0^{(i)} \]
\[θ_j := θ_j - α[(\frac{1}{m}\sum_{i=1}{m}( h_θ(x^{(i)} ) - y^{(i)} )x_0^{(i)} ) + \frac{λ}{m}θ_j ] \quad j∈\{1,2,3……n\} \]
}
- 正則化正規方程
前面提到過,若m< n,那么XTX是不可逆的,但是加上λ·L后則變為可逆的了。
4) 正則化邏輯回歸
\[J(θ)=-\frac{1}{m} \{\sum_{i=1}^m[ y^{(i)} log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))]\} + \frac{λ}{2m}\sum_{j=1}^n θ_j^2 \]
梯度下降過程