機器學習之代價函數（cost function）

本文轉載自查看原文 2017-05-19 14:26 1269 Machine Learning

代價函數（有的地方也叫損失函數，Loss Function）在機器學習中的每一種算法中都很重要，因為訓練模型的過程就是優化代價函數的過程，代價函數對每個參數的偏導數就是梯度下降中提到的梯度，防止過擬合時添加的正則化項也是加在代價函數后面的。在學習相關算法的過程中，對代價函數的理解也在不斷的加深，在此做一個小結。

什么是代價函數？

假設有訓練樣本(x, y)，模型為h，參數為θ。h(θ) = θ^Tx（θ^T表示θ的轉置）。

（1）概況來講，任何能夠衡量模型預測出來的值h(θ)與真實值y之間的差異的函數都可以叫做代價函數C(θ)，如果有多個樣本，則可以將所有代價函數的取值求均值，記做J(θ)。因此很容易就可以得出以下關於代價函數的性質：

對於每種算法來說，代價函數不是唯一的；
代價函數是參數θ的函數；
總的代價函數J(θ)可以用來評價模型的好壞，代價函數越小說明模型和參數越符合訓練樣本(x, y)；
J(θ)是一個標量；

（2）當我們確定了模型h，后面做的所有事情就是訓練模型的參數θ。那么什么時候模型的訓練才能結束呢？這時候也涉及到代價函數，由於代價函數是用來衡量模型好壞的，我們的目標當然是得到最好的模型（也就是最符合訓練樣本(x, y)的模型）。因此訓練參數的過程就是不斷改變θ，從而得到更小的J(θ)的過程。理想情況下，當我們取到代價函數J的最小值時，就得到了最優的參數θ，記為：

min θ J (θ)

例如，J(θ) = 0，表示我們的模型完美的擬合了觀察的數據，沒有任何誤差。

（3）在優化參數θ的過程中，最常用的方法是梯度下降，這里的梯度就是代價函數J(θ)對θ₁, θ₂, ..., θ_n的偏導數。由於需要求偏導，我們可以得到另一個關於代價函數的性質：

選擇代價函數時，最好挑選對參數θ可微的函數（全微分存在，偏導數一定存在）

代價函數的常見形式

經過上面的描述，一個好的代價函數需要滿足兩個最基本的要求：能夠評價模型的准確性，對參數θ可微。

（1）在線性回歸中，最常用的是均方誤差(Mean squared error)，即

J (θ 0, θ 1) = 1 2 m \sum i = 1 m ( y ^ ( i ) - y (

m：訓練樣本的個數；

h_θ(x)：用參數θ和x預測出來的y值；

y：原訓練樣本中的y值，也就是標准答案

上角標(i)：第i個樣本

（2）在邏輯回歸中，最常用的是代價函數是交叉熵(Cross Entropy)，交叉熵是一個常見的代價函數，在神經網絡中也會用到。下面是《神經網絡與深度學習》一書對交叉熵的解釋：

交叉熵是對「出乎意料」（譯者注：原文使用suprise）的度量。神經元的目標是去計算函數

在1948年，克勞德·艾爾伍德·香農將熱力學的熵，引入到信息論，因此它又被稱為香農熵(Shannon Entropy)，它是香農信息量(Shannon Information Content, SIC)的期望。香農信息量用來度量不確定性的大小：一個事件的香農信息量等於0，表示該事件的發生不會給我們提供任何新的信息，例如確定性的事件，發生的概率是1，發生了也不會引起任何驚訝；當不可能事件發生時，香農信息量為無窮大，這表示給我們提供了無窮多的新信息，並且使我們無限的驚訝。更多解釋可以看這里。

J (θ) = - 1 m [ \sum i = 1 m ( y ( i ) log h θ ( x ( i ) ) + (

符號說明同上

（3）學習過神經網絡后，發現邏輯回歸其實是神經網絡的一種特例（沒有隱藏層的神經網絡）。因此神經網絡中的代價函數與邏輯回歸中的代價函數非常相似：

J (θ) = - 1 m [ \sum i = 1 m \sum k = 1 K ( y ( i ) k log h θ

這里之所以多了一層求和項，是因為神經網絡的輸出一般都不是單一的值，K表示在多分類中的類型數。

例如在數字識別中，K=10，表示分了10類。此時對於某一個樣本來說，輸出的結果如下：

  1.1266e-004
  1.7413e-003
  2.5270e-003
  1.8403e-005
  9.3626e-003
  3.9927e-003
  5.5152e-003
  4.0147e-004
  6.4807e-003
  9.9573e-001

一個10維的列向量，預測的結果表示輸入的數字是0~9中的某一個的概率，概率最大的就被當做是預測結果。例如上面的預測結果是9。理想情況下的預測結果應該如下（9的概率是1，其他都是0）：

比較預測結果和理想情況下的結果，可以看到這兩個向量的對應元素之間都存在差異，共有10組，這里的10就表示代價函數里的K，相當於把每一種類型的差異都累加起來了。

代價函數與參數

代價函數衡量的是模型預測值h(θ) 與標准答案y之間的差異，所以總的代價函數J是h(θ)和y的函數，即，J=f(h(θ), y)。又因為y都是訓練樣本中給定的，h(θ)有θ決定，所以，最終還是模型參數θ的改變導致了J的改變。對於不同的θ，對應不同的預測值h(θ)，也就對應着不同的代價函數J的取值。變化過程為：

θ - > h (θ), y - > J (θ)

為了更直觀的看到參數對代價函數的影響，舉個簡單的例子：

有訓練樣本{(0, 0), (1, 1), (2, 2), (4, 4)}，即4對訓練樣本，每個樣本中第1個是x的值，第2個是y的值。這幾個點很明顯都是y=x這條直線上的點。如下圖：

abc

View Code

常數項為0，所以可以取θ₀=0，然后取不同的θ₁，可以得到不同的擬合直線。當θ₁=0時，擬合的直線是y=0，即藍色線段，此時距離樣本點最遠，代價函數的值（誤差）也最大；當θ₁=1時，擬合的直線是y=x，即綠色線段，此時擬合的直線經過每一個樣本點，代價函數的值為0。

通過下圖可以查看隨着θ₁的變化，J(θ)的變化情況：

View Code

從圖中可以很直觀的看到θ對代價函數的影響，當θ₁=1時，代價函數J(θ)取到最小值。因為線性回歸模型的代價函數（均方誤差）的性質非常好，因此也可以直接使用代數的方法，求J(θ)的一階導數為0的點，就可以直接求出最優的θ值。

代價函數與梯度

梯度下降中的梯度指的是代價函數對各個參數的偏導數，偏導數的方向決定了在學習過程中參數下降的方向，學習率（通常用α表示）決定了每步變化的步長，有了導數和學習率就可以使用梯度下降算法（Gradient Descent Algorithm）更新參數了。下圖中展示了只有兩個參數的模型運用梯度下降算法的過程。

下圖可以看做是代價函數J(θ)與參數θ做出的圖，曲面上的一個點(θ ₀, θ ₁, J(θ))，有無數條切線，在這些切線中與x-y平面(底面，相當於θ ₀, θ ₁)夾角最大的那條切線就是該點梯度的方向，沿該方向移動，會產生最大的高度(相對於z軸，這里的z軸相當於代價函數J(θ))變化。

（1）線性回歸模型的代價函數對參數的偏導數：

還是以兩個參數為例，每個參數都有一個偏導數，且綜合了所有樣本的信息。

（2）邏輯回歸模型的代價函數對參數的偏導數：

根據邏輯回歸模型的代價函數以及sigmoid函數

h θ (x) = g (θ T x)

g (z) = 1 1 + e - z

得到對每個參數的偏導數為

\partial \partial θ j J ( θ ) = \sum i = 1 m ( h θ ( x i ) - y i ) x i j

詳細推導過程可以看這里-邏輯回歸代價函數的導數

（3）神經網絡中的代價函數對參數的偏導數：

這里的計算過程與前面都不一樣，后面再補充。

References

https://www.quora.com/How-are-the-cost-functions-for-Neural-Networks-derived/answer/Daniel-Watson-22?srid=uIoGQ

https://www.zhihu.com/question/23468713

https://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)

https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s3.html

Coursera, Andrew Ng 公開課第一周，第三周，第五周

http://math.stackexchange.com/questions/477207/derivative-of-cost-function-for-logistic-regression

http://math.stackexchange.com/questions/947604/gradient-tangents-planes-and-steepest-direction

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【機器學習】代價函數（cost function）機器學習損失函數(Loss/Error Function)、代價函數(Cost Function)和目標函數(Objective function) 吳恩達機器學習筆記29-神經網絡的代價函數（Cost Function of Neural Networks） [機器學習Lesson 2]代價函數之線性回歸算法損失函數(Loss Function)、代價函數(Cost Function)和目標函數(Object Function) 機器學習之損失函數、代價函數、目標函數的區別與聯系機器學習中目標函數、損失函數、代價函數之間的區別和聯系吳恩達機器學習筆記17-邏輯回歸的代價函數機器學習實戰第五章羅輯回歸的代價函數推導機器學習筆記（1）：模型和 cost function