損失函數

本文轉載自查看原文 2018-07-26 11:25 2426 深度學習

　　損失函數（loss function）是用來估量你模型的預測值f(x)與真實值Y的不一致程度，它是一個非負實值函數,通常使用L(Y, f(x))來表示，損失函數越小，模型的魯棒性就越好。損失函數是經驗風險函數的核心部分，也是結構風險函數重要組成部分。模型的結構風險函數包括了經驗風險項和正則項，通常可以表示成如下式子：

其中，前面的均值函數表示的是經驗風險函數，L代表的是損失函數，后面的 $Φ$

$Φ$ $Φ$

$Φ$ 正則化（Regularization）

　　機器學習中幾乎都可以看到損失函數后面會添加一個額外項，常用的額外項一般有兩種，一般英文稱作-norm和-norm，中文稱作L1正則化和L2正則化，或者L1范數和L2范數。

L1正則化和L2正則化可以看做是損失函數的懲罰項。所謂『懲罰』是指對損失函數中的某些參數做一些限制。對於線性回歸模型，使用L1正則化的模型建叫做Lasso回歸，使用L2正則化的模型叫做Ridge回歸（嶺回歸）。下圖是Python中Lasso回歸的損失函數，式中加號后面一項即為L1正則化項。

lasso regression

下圖是Python中Ridge回歸的損失函數，式中加號后面一項即為L2正則化項。

ridge regression

一般回歸分析中回歸表示特征的系數，從上式可以看到正則化項是對系數做了處理（限制）。L1正則化和L2正則化的說明如下：

L1正則化是指權值向量中各個元素的絕對值之和。
L2正則化是指權值向量中各個元素的平方和然后再求平方根（可以看到Ridge回歸的L2正則化項有平方符號）。

一般都會在正則化項之前添加一個系數，Python中用a表示，一些文章也用a表示。這個系數需要用戶指定。

那添加L1和L2正則化有什么用？下面是L1正則化和L2正則化的作用，這些表述可以在很多文章中找到。

L1正則化可以產生稀疏權值矩陣，即產生一個稀疏模型，可以用於特征選擇。
L2正則化可以防止模型過擬合（overfitting）；一定程度上，L1也可以防止過擬合。

稀疏模型與特征選擇

稀疏矩陣的概念

在矩陣中，若數值為0的元素數目遠遠多於非0元素的數目時，則稱該矩陣為稀疏矩陣。與之相反，若非0元素數目占大多數時，則稱該矩陣為稠密矩陣。

稀疏矩陣的特性

稀疏矩陣其非零元素的個數遠遠小於零元素的個數，而且這些非零元素的分布也沒有規律。
稀疏因子是用於描述稀疏矩陣的非零元素的比例情況。設一個n*m的稀疏矩陣A中有t個非零元素，則稀疏因子 $δ$

上面提到L1正則化有助於生成一個稀疏權值矩陣，進而可以用於特征選擇。為什么要生成一個稀疏矩陣？

稀疏矩陣指的是很多元素為0，只有少數元素是非零值的矩陣，即得到的線性回歸模型的大部分系數都是0. 通常機器學習中特征數量很多，例如文本處理時，如果將一個詞組（term）作為一個特征，那么特征數量會達到上萬個（bigram）。在預測或分類時，那么多特征顯然難以選擇，但是如果代入這些特征得到的模型是一個稀疏模型，表示只有少數特征對這個模型有貢獻，絕大部分特征是沒有貢獻的，或者貢獻微小（因為它們前面的系數是0或者是很小的值，即使去掉對模型也沒有什么影響），此時我們就可以只關注系數是非零值的特征。這就是稀疏模型與特征選擇的關系。

L1和L2正則化的直觀理解

這部分內容將解釋為什么L1正則化可以產生稀疏模型（L1是怎么讓系數等於零的），以及為什么L2正則化可以防止過擬合。

L1正則化和特征選擇

　　假設有如下帶L1正則化的損失函數：

其中是原始的損失函數，加號后面的一項是L1正則化項，是正則化系數。注意到L1正則化是權值的絕對值之和，是帶有絕對值符號的函數，因此是不完全可微的。機器學習的任務就是要通過一些方法（比如梯度下降）求出損失函數的最小值。當我們在原始損失函數后添加L1正則化項時，相當於對做了一個約束。此時我們的任務變成在約束下求出取最小值的解。考慮二維的情況，即只有兩個權值和，此時對於梯度下降法，求解的過程可以畫出等值線，同時L1正則化的函數也可以在的二維平面上畫出來。如下圖：

圖1 L1正則化

　　圖中線是的等值線，黑色方形是函數的圖形。在圖中，當等值線與圖形首次相交的地方就是最優解。上圖中與在的一個頂點處相交，這個頂點就是最優解。注意到這個頂點的值是。可以直觀想象，因為函數有很多『突出的角』（二維情況下四個，多維情況下更多），與這些角接觸的機率會遠大於與其它部位接觸的機率，而在這些角上，會有很多權值等於0，這就是為什么L1正則化可以產生稀疏模型，進而可以用於特征選擇。

　　而正則化前面的系數，可以控制圖形的大小。越小，的圖形越大（上圖中的黑色方框）；越大，的圖形就越小，可以小到黑色方框只超出原點范圍一點點，這是最優點的值中的可以取到很小的值。

類似，假設有如下帶L2正則化的損失函數：

同樣可以畫出他們在二維平面上的圖形，如下：

@圖2 L2正則化
圖2 L2正則化

　　二維平面下L2正則化的函數圖形是個圓，與方形相比，被磨去了棱角。因此與相交時使得或等於零的機率小了許多，這就是為什么L2正則化不具有稀疏性的原因。

L2正則化和過擬合

　　擬合過程中通常都傾向於讓權值盡可能小，最后構造一個所有參數都比較小的模型。因為一般認為參數值小的模型比較簡單，能適應不同的數據集，也在一定程度上避免了過擬合現象。可以設想一下對於一個線性回歸方程，若參數很大，那么只要數據偏移一點點，就會對結果造成很大的影響；但如果參數足夠小，數據偏移得多一點也不會對結果造成什么影響，專業一點的說法是『抗擾動能力強』。