斯坦福機器學習視頻筆記 Week3 邏輯回歸與正則化 Logistic Regression and Regularization

本文轉載自查看原文 2017-01-26 22:58 3775 ML&DM

我們將討論邏輯回歸。邏輯回歸是一種將數據分類為離散結果的方法。例如，我們可以使用邏輯回歸將電子郵件分類為垃圾郵件或非垃圾郵件。在本模塊中，我們介紹分類的概念，邏輯回歸的損失函數（cost functon），以及邏輯回歸對多分類的應用。

我們還涉及正規化。機器學習模型需要很好地推廣到模型在實踐中沒有看到的新例子。我們將介紹正則化，這有助於防止模型過度擬合訓練數據。

Classification

分類問題其實和回歸問題相似，不同的是分類問題需要預測的是一些離散值而不是連續值。

如垃圾郵件分類，信用卡欺詐，腫瘤診斷等等。離散值可以是任意可數多個。

如果使用回歸分析處理分類問題，如上圖，當輸出大於0.5時規定輸出為1，小於0.5時輸出為0，那么預測結果根據數據分布的不同會有很大誤差。如那條藍色的擬合直線。

而且預測值h(x)可以大於1或者小於0，這樣回歸方法將不好處理。

綜上，我們引入邏輯回歸使0<=h(x)<=1.

Hypothesis Representation

我們新引入的函數g（z）稱為"Sigmoid Function,"或 "Logistic Function"，圖像如上圖。

邏輯函數g(z)可以將可以將任意的輸入值限制在[0,1]之間的輸出值。

此時，hθ(x)的值表示輸出結果為1時的概率。例如hθ(x) = 0.7表示輸出為1的概率為0.7。同時表示，輸出為0的概率為0.3

兩個概率有如下關系：

Decision Boundary

為了得到離散的分類值y = {0，1}，我們做如下處理：

當hθ(x)>=0.5時，輸出1；當hθ(x)<0.5時，輸出0.

當z>=0時，g(z)>=0.5;當z<0時，g(z)<0.5。

當輸入變成theta*X時，有

所以，我們最終得到：

這是我們想要的結果。

關於決策邊界‘decision boundary’是將數據很好划分的一條分界線。

有如上圖的數據分布，現在假設theta=[-3,1,1]T,帶入到hθ(x)中，

假設現在要預測‘y=1’，使帶入的結果-3+x1+x2 >0(之前的條件，z>=0),解除直線x1+x2=3便是數據集的分類邊界。

另外一個例子可以看看：

這里決策邊界都是一條直線，而邏輯回歸的決策邊界其實可以是任何形狀的，如下面：

Cost Function and Gradient Descent

我們不能在邏輯回歸中使用和線性回歸相同的cost function，因為其輸出會是波動的，出現很多局部最小值，即它將不是‘凸函數’。

所以邏輯回歸的損失函數定義如下：

我們得到上面的

hθ(x) = 0時，Cost=0；y=0 && hθ(x)->1時，cost->∞。

現在的損失函數就是‘凸函數’了，這樣我們就可以使用梯度下降算法來求解參數了。損失函數表達如下：

因為y={0,1},可以將J（theta）做如下簡化：

然后就可以最小化J(theta)，求得參數theta。

使用梯度下降：

可以發現，這里的梯度下降迭代的式子和之前的線性回歸在形式上是一樣的，但是請注意，這里也就是在形式上相似而已，因為h(x)的表示都不同，上圖中的1號框是線性回歸的h(x),2號框是邏輯回歸的h(x)表示的邏輯函數。

Advanced Optimization

這里講的是關於Octive中使用高級優化的知識，這里僅僅附上兩張ppt，詳細的知識請去Coursera了解。

1 function [jVal, gradient] = costFunction(theta)
2   jVal = [...code to compute J(theta)...];
3   gradient = [...code to compute derivative of J(theta)...];
4 end

1 options = optimset('GradObj', 'on', 'MaxIter', 100);
2 initialTheta = zeros(2,1);
3    [optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);