Andrew Ng機器學習課程筆記--week3（邏輯回歸&正則化參數）

本文轉載自查看原文 2017-08-25 17:27 2805 Logistic Regression/ 機器學習/ 學習筆記/ 正則化

Logistic Regression

一、內容概要

Classification and Representation
- Classification
- Hypothesis Representation
- Decision Boundary
Logistic Regression Model
- 損失函數（cost function）
- 簡化損失函數和梯度下降算法
- Advanced Optimization（高級優化方法）
Solving the problem of Overfitting
- 什么是過擬合？
- 正則化損失函數（cost function）
- 正則化線性回歸（Regularized Linear Regression）
- 正則化邏輯回歸（Regularized Logistic Regression）

二、重點&難點

1. Classification and Representation

1） Hypothesis Representation

這里需要使用到sigmoid函數--g(z)：

\[\begin{equation} h_θ(x) = g(θ^Tx) \end{equation} \]

\[\begin{equation} z = θ^Tx \end{equation} \]

\[\begin{equation} g(z) = \frac{1}{1+e^{-z}} \end{equation} \]

sigmoid函數

2) Decision Boundary

決策邊界：

\[h_θ(x) ≥ 0.5 → y=1 \]

\[h_θ(x) < 0.5 → y=0 \]

等價於

\[g(z) ≥ 0.5 → y=1 \]

\[g(z) < 0.5 → y=0 \]

等價於

\[z ≥0 → y=1 \]

\[z < 0 → y=0 \]

2. Logistic Regression Model

1）邏輯回歸的損失函數

這里之所以再次提到損失函數，是因為線性回歸中的損失函數會使得輸出呈現起伏，造成許多局部最優值，也就是說線性回歸中的cost function在運用到邏輯回歸時，將可能不再是凸函數。

邏輯回歸的cost function如下：

\[J_θ = \frac{1}{m} \sum {Cost}( h_θ(x^{(i)}, y^{(i)} ) ) \]

\[{Cost}(h_θ(x), y) ) = - log(h_θ(x)) \quad \quad if \quad y=1 \]

\[{Cost}(h_θ(x), y) ) = - log(1 - h_θ(x)) \quad if \quad y=0 \]

結合圖來理解：

y=1

y=1
由上圖可知，y=1，h_θ(x)是預測值，
- 當其值為1時，表示預測正確，損失函數為0；
- 當其值為0時，表示錯的一塌糊塗，需要大大的懲罰，所以損失函數趨近於∞。

y=0

y=0
上圖同理

2) Simplified Cost Function and Gradient Descent

損失函數
cost function

\[Cost(h_θ(x), y) = -ylog(h_θ(x)) - (1-y)log(1-h_θ(x)) \]

J_θ

\[J_θ=-\frac{1}{m} \sum Cost(h_θ(x), y) \]

\[\quad =-\frac{1}{m} \sum [-y^{i}log(h_θ(x^{(i)})) - (1-y^i)log(1-h_θ(x^{(i)}))] \]

梯度函數

3）高級優化方法

Advanced Optimization

如圖左邊顯示的是優化方法，其中后三種是更加高級的算法，其優缺點由圖郵編所示：
優點

不需要手動選擇α
比梯度下降更快

缺點

更加復雜

后面三種方法只需了解即可，老師建議如果你不是專業的數學專家，沒必要自己使用這些方法。。。。。。當然了解一下原理也是好的。

3. Solving the problem of Overfitting

1) 過擬合

主要說一下過擬合的解決辦法：
1）減少特征數量

手動選擇一些需要保留的特征
使用模型選擇算法（model selection algorithm）
2）正則化
保留所有特征，但是參數θ的數量級（大小）要減小
當我們有很多特征，而且這些特征對於預測多多少少會由影響，此時正則化怎能起到很大的作用。

2）正則化損失函數

圖示右邊很明顯是過擬合，因此為了糾正加入了正則化項：1000·θ₃²，為了使得J(θ)最小化，所以算法會使得θ₃趨近於0，θ₄也趨近於0。

正則化損失函數表達式：

\[J(θ)=\frac{1}{2m} [\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2] \]

\[min_θ [\frac{1}{2m} (\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2)] \]

3) 正則化線性回歸

正則化梯度下降：

\[J(θ)=\frac{1}{2m} [\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2] \]

\[\frac{∂J_θ}{∂θ_j} = \frac{1}{m} \sum_{i=1}^m( h_θ(x^{(i)} ) - y^{(i)} )x_j^{(i)} + \frac{λ}{m}θ_j \]

Repeat{

\[θ_0 := θ_0 - α\frac{1}{m}\sum_{i=1}{m}( h_θ(x^{(i)} ) - y^{(i)} )x_0^{(i)} \]

\[θ_j := θ_j - α[(\frac{1}{m}\sum_{i=1}{m}( h_θ(x^{(i)} ) - y^{(i)} )x_0^{(i)} ) + \frac{λ}{m}θ_j ] \quad j∈\{1,2,3……n\} \]

}

正則化正規方程

前面提到過，若m< n,那么X^TX是不可逆的，但是加上λ·L后則變為可逆的了。

4) 正則化邏輯回歸

\[J(θ)=-\frac{1}{m} \{\sum_{i=1}^m[ y^{(i)} log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))]\} + \frac{λ}{2m}\sum_{j=1}^n θ_j^2 \]

梯度下降過程

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Andrew Ng機器學習算法入門(九):邏輯回歸 coursera機器學習-logistic回歸，正則化【原】Coursera—Andrew Ng機器學習—Week 2 習題—Linear Regression with Multiple Variables 多變量線性回歸 ng-深度學習-課程筆記-2: 神經網絡中的邏輯回歸(Week2) Andrew Ng機器學習公開課筆記 -- 線性回歸和梯度下降吳恩達機器學習筆記 —— 8 正則化【機器學習】正則化的線性回歸 —— 嶺回歸與Lasso回歸 ng-深度學習-課程筆記-13: 目標檢測(Week3) 斯坦福CS229機器學習課程筆記六：學習理論、模型選擇與正則化機器學習筆記-L2正則化、L1正則化與稀疏性