MSE, MAE, Huber loss詳解

本文轉載自查看原文 2019-09-04 11:32 1561 deep learning/ DeepLearning

轉載：https://mp.weixin.qq.com/s/Xbi5iOh3xoBIK5kVmqbKYA

https://baijiahao.baidu.com/s?id=1611951775526158371&wfr=spider&for=pc

無論在機器學習還是深度領域中,損失函數都是一個非常重要的知識點。損失函數（Loss Function）是用來估量模型的預測值 f(x) 與真實值 y 的不一致程度。我們的目標就是最小化損失函數，讓 f(x) 與 y 盡量接近。通常可以使用梯度下降算法尋找函數最小值。

關於梯度下降最直白的解釋可以看我的這篇文章：

簡單的梯度下降算法，你真的懂了嗎？

損失函數有許多不同的類型，沒有哪種損失函數適合所有的問題，需根據具體模型和問題進行選擇。一般來說，損失函數大致可以分成兩類：回歸（Regression）和分類（Classification）。今天，紅色石頭將要總結回歸問題中常用的 3 種損失函數，希望對你有所幫助。

回歸模型中的三種損失函數包括：均方誤差（Mean Square Error）、平均絕對誤差（Mean Absolute Error，MAE）、Huber Loss。

1. 均方誤差（Mean Square Error，MSE）

均方誤差指的就是模型預測值 f(x) 與樣本真實值 y 之間距離平方的平均值。其公式如下所示：

其中，yi 和 f(xi) 分別表示第 i 個樣本的真實值和預測值，m 為樣本個數。

為了簡化討論，忽略下標 i，m = 1，以 y-f(x) 為橫坐標，MSE 為縱坐標，繪制其損失函數的圖形：

MSE 曲線的特點是光滑連續、可導，便於使用梯度下降算法，是比較常用的一種損失函數。而且，MSE 隨着誤差的減小，梯度也在減小，這有利於函數的收斂，即使固定學習因子，函數也能較快取得最小值。

平方誤差有個特性，就是當 yi 與 f(xi) 的差值大於 1 時，會增大其誤差；當 yi 與 f(xi) 的差值小於 1 時，會減小其誤差。這是由平方的特性決定的。也就是說， MSE 會對誤差較大（>1）的情況給予更大的懲罰，對誤差較小（<1）的情況給予更小的懲罰。從訓練的角度來看，模型會更加偏向於懲罰較大的點，賦予其更大的權重。

如果樣本中存在離群點，MSE 會給離群點賦予更高的權重，但是卻是以犧牲其他正常數據點的預測效果為代價，這最終會降低模型的整體性能。我們來看一下使用 MSE 解決含有離群點的回歸模型。

import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(1, 20, 40)
y = x + [np.random.choice(4) for _ in range(40)]
y[-5:] -= 8
X = np.vstack((np.ones_like(x),x))    # 引入常數項 1
m = X.shape[1]
# 參數初始化
W = np.zeros((1,2))

# 迭代訓練 
num_iter = 20
lr = 0.01
J = []
for i in range(num_iter):
   y_pred = W.dot(X)
   loss = 1/(2*m) * np.sum((y-y_pred)**2)
   J.append(loss)
   W = W + lr * 1/m * (y-y_pred).dot(X.T)

# 作圖
y1 = W[0,0] + W[0,1]*1
y2 = W[0,0] + W[0,1]*20
plt.scatter(x, y)
plt.plot([1,20],[y1,y2])
plt.show()

擬合結果如下圖所示：

可見，使用 MSE 損失函數，受離群點的影響較大，雖然樣本中只有 5 個離群點，但是擬合的直線還是比較偏向於離群點。這往往是我們不希望看到的。

2. 平均絕對誤差（Mean Absolute Error，MAE）

平均絕對誤差指的就是模型預測值 f(x) 與樣本真實值 y 之間距離的平均值。其公式如下所示：

為了簡化討論，忽略下標 i，m = 1，以 y-f(x) 為橫坐標，MAE 為縱坐標，繪制其損失函數的圖形：

直觀上來看，MAE 的曲線呈 V 字型，連續但在 y-f(x)=0 處不可導，計算機求解導數比較困難。而且 MAE 大部分情況下梯度都是相等的，這意味着即使對於小的損失值，其梯度也是大的。這不利於函數的收斂和模型的學習。

值得一提的是，MAE 相比 MSE 有個優點就是 MAE 對離群點不那么敏感，更有包容性。因為 MAE 計算的是誤差 y-f(x) 的絕對值，無論是 y-f(x)>1 還是 y-f(x)<1，沒有平方項的作用，懲罰力度都是一樣的，所占權重一樣。針對 MSE 中的例子，我們來使用 MAE 進行求解，看下擬合直線有什么不同。

X = np.vstack((np.ones_like(x),x))    # 引入常數項 1
m = X.shape[1]
# 參數初始化
W = np.zeros((1,2))

# 迭代訓練 
num_iter = 20
lr = 0.01
J = []
for i in range(num_iter):
   y_pred = W.dot(X)
   loss = 1/m * np.sum(np.abs(y-y_pred))
   J.append(loss)
   mask = (y-y_pred).copy()
   mask[y-y_pred > 0] = 1
   mask[mask <= 0] = -1
   W = W + lr * 1/m * mask.dot(X.T)

# 作圖
y1 = W[0,0] + W[0,1]*1
y2 = W[0,0] + W[0,1]*20
plt.scatter(x, y)
plt.plot([1,20],[y1,y2],'r--')
plt.xlabel('x')
plt.ylabel('y')
plt.title('MAE')
plt.show()

注意上述代碼中對 MAE 計算梯度的部分。

擬合結果如下圖所示：

顯然，使用 MAE 損失函數，受離群點的影響較小，擬合直線能夠較好地表征正常數據的分布情況。這一點，MAE 要優於 MSE。二者的對比圖如下：

選擇 MSE 還是 MAE 呢？

實際應用中，我們應該選擇 MSE 還是 MAE 呢？從計算機求解梯度的復雜度來說，MSE 要優於 MAE，而且梯度也是動態變化的，能較快准確達到收斂。但是從離群點角度來看，如果離群點是實際數據或重要數據，而且是應該被檢測到的異常值，那么我們應該使用MSE。另一方面，離群點僅僅代表數據損壞或者錯誤采樣，無須給予過多關注，那么我們應該選擇MAE作為損失。

3. Huber Loss

既然 MSE 和 MAE 各有優點和缺點，那么有沒有一種激活函數能同時消除二者的缺點，集合二者的優點呢？答案是有的。Huber Loss 就具備這樣的優點，其公式如下：

Huber Loss 是對二者的綜合，包含了一個超參數 δ。δ 值的大小決定了 Huber Loss 對 MSE 和 MAE 的側重性，當 |y−f(x)| ≤ δ 時，變為 MSE；當 |y−f(x)| > δ 時，則變成類似於 MAE，因此 Huber Loss 同時具備了 MSE 和 MAE 的優點，減小了對離群點的敏感度問題，實現了處處可導的功能。

通常來說，超參數 δ 可以通過交叉驗證選取最佳值。下面，分別取 δ = 0.1、δ = 10，繪制相應的 Huber Loss，如下圖所示：

Huber Loss 在 |y−f(x)| > δ 時，梯度一直近似為 δ，能夠保證模型以一個較快的速度更新參數。當 |y−f(x)| ≤ δ 時，梯度逐漸減小，能夠保證模型更精確地得到全局最優值。因此，Huber Loss 同時具備了前兩種損失函數的優點。

下面，我們用 Huber Loss 來解決同樣的例子。

X = np.vstack((np.ones_like(x),x))    # 引入常數項 1
m = X.shape[1]
# 參數初始化
W = np.zeros((1,2))

# 迭代訓練 
num_iter = 20
lr = 0.01
delta = 2
J = []
for i in range(num_iter):
   y_pred = W.dot(X)
   loss = 1/m * np.sum(np.abs(y-y_pred))
   J.append(loss)
   mask = (y-y_pred).copy()
   mask[y-y_pred > delta] = delta
   mask[mask < -delta] = -delta
   W = W + lr * 1/m * mask.dot(X.T)

# 作圖
y1 = W[0,0] + W[0,1]*1
y2 = W[0,0] + W[0,1]*20
plt.scatter(x, y)
plt.plot([1,20],[y1,y2],'r--')
plt.xlabel('x')
plt.ylabel('y')
plt.title('MAE')
plt.show()

注意上述代碼中對 Huber Loss 計算梯度的部分。

擬合結果如下圖所示：

可見，使用 Huber Loss 作為激活函數，對離群點仍然有很好的抗干擾性，這一點比 MSE 強。另外，我們把這三種損失函數對應的 Loss 隨着迭代次數變化的趨勢繪制出來：

MSE：

MAE：

Huber Loss：

對比發現，MSE 的 Loss 下降得最快，MAE 的 Loss 下降得最慢，Huber Loss 下降速度介於 MSE 和 MAE 之間。也就是說，Huber Loss 彌補了此例中 MAE 的 Loss 下降速度慢的問題，使得優化速度接近 MSE。

最后，我們把以上介紹的回歸問題中的三種損失函數全部繪制在一張圖上。

好了，以上就是紅色石頭對回歸問題 3 種常用的損失函數包括：MSE、MAE、Huber Loss 的簡單介紹和詳細對比。這些簡單的知識點你是否已經完全掌握了呢？

參考文獻：

http://www.10tiao.com/html/782/201806/2247495489/1.html

https://www.cnblogs.com/massquantity/p/8964029.html

除了MSE，MAE，huber loss，在回歸任務中，我們還會使用log-cosh loss，它可以保證二階導數的存在，有些優化算法會用到二階導數，在xgboost中我們同樣需要利用二階導數；同時，我們還會用到分位數損失，希望能給不確定的度量。

除了log和hinge，在分類任務中，我們還有對比損失（contrastive loss）、softmax cross-entropy loss、中心損失（center loss）等損失函數，它們一般用在神經網絡中。

lossfunction多樣性的背后實際上是靠着一類叫做隨機梯度下降（SGD）的優化算法作為支撐，隨機梯度下降的優越性絕不是為了減小時間效率，而是機器學習偉大的創新之一，我們將在下一節介紹以SGD為代表的優化算法。

均方誤差（MSE）：是回歸問題中最常被使用的損失函數

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Huber loss Huber Loss MSE與MAE的區別與選擇 MSE Loss Huber Loss 介紹 Huber loss--轉 Keras MAE和MSE source code 回歸損失函數2 ： HUber loss,Log Cosh Loss,以及 Quantile Loss MTALAB——神經網絡mae()、mse()、sse() 可決系數R^2和MSE，MAE，SMSE