機器學習(一)基礎常用損失函數、評價指標、距離、指標

2018-06-27 15:20:16 Dynomite 閱讀數 1184更多

分類專欄：機器學習

本文鏈接： https://blog.csdn.net/Dynomite/article/details/80829785

機器學習(一)

1.基礎

1.1 數據集划分方式

留出法
- 按正負例比例划分數據集，多次訓練模型取平均
交叉驗證
- k折交叉驗證形成k個數據集，每次取其中的 $\frac{1}{k}$
Bootstrapping
- 每次從樣本容量為D的集合重復的取元素D次，形成新的樣本容量為D數據集
- 某一樣樣本始終不出現的概率為 $(1 - \frac{1}{D})^{D}$
比較
- 自助法適合於數據集小，難以有效划分的訓練集測試集使用，此外划分不同的訓練集測試集適合集成學習。
- 自助法改變了數據的初始分布，引入估計偏差，數據量足夠交叉驗證更多使用。
- 交叉驗證可以降低模型的方差，更加穩定

1.2 常用損失函數

L2損失
$l o s s = 1 n \sum i = 1 n ( y ^ i - y i ) 2 (1)$
L1損失

$\begin{matrix} (2) & l o s s = \frac{1}{n} \sum_{i = 1}^{n} | {\hat{y}}_{i} - y_{i} | \end{matrix}$

L1 不可導，可采用坐標軸下降的方式進行計算
- 延着坐標軸的方向進行參數的更新，不依賴於梯度
- 每次更新固定m-1個參數，只對一個參數進行優化，求局部極小值點
- 對於可微凸函數，如果參數的一個解在對於函數在某個坐標軸上能達到最小值，那么這個參數就是f的全局最小點
- 坐標軸下降法在每次迭代中在當前點處沿一個坐標方向進行一維搜索，固定其他的坐標方向，找到一個函數的局部極小值。而梯度下降總是沿着梯度的負方向求函數的局部最小值
交叉熵損失 nn
$l o s s = - 1 n \sum i = 1 n \sum j = 1 k y i j l o g y ^$
指數損失 Adaboost
$l o s s = 1 n \sum i = 1 n e - y i y ^ i (4)$
Hinge loss svm
$l o s s = 1 n \sum i = 1 n C m a x ( 0 , 1 - y y ^ ) + Ω ( y ^ )$
經驗風險 + 結構風險

1.3 常用性能度量

准確率

$\begin{matrix} (6) & A c c u r a c y = \frac{T P + T N}{N} \end{matrix}$
- 准確率在類別極度不平衡問題上，作為評級指標不是十分合適。例如，1000個樣本中，990個正例，10個負例，分類器預測准確率為90%，而全將樣本作為正例都有99%的准確率。
查准率

$\begin{matrix} (7) & P r e c i s i o n = \frac{T P}{T P + F P} \end{matrix}$
- 查准率可以理解為，分類器判斷的正例中有多少是正確的。
查全率

$\begin{matrix} (8) & R e c a l l = \frac{T P}{T P + F N} \end{matrix}$
- 查全率可以理解為，分類器找出了多少的正例。
F1值

$\begin{matrix} (9) & F 1 = \frac{2 P R}{P + R} \end{matrix}$
- P, R成反向趨勢，P增加R減少，F1綜合考慮了P、R
P(縱軸)-R(橫軸) 曲線
- 以學習器的預測結果對樣例進行排序，排在前面的認為是正例，排在后面的認為是負例，則可以計算當前的P-R值。
- 曲線底下面積越大一般來說性能越好。
Precision@k RecSys
$P r e c i s i o n @ k = \sum n i = 1 r e c ( u i , k ) \cap I ( u i ) n$
Recall@k RecSys
$R e c a l l @ k = \sum n i = 1 r e c ( u i , k ) \cap I ( u i ) \sum n$
ROC 曲線

$\begin{matrix} (12) & T P R = \frac{T P}{T P + F N} \end{matrix}$

$\begin{matrix} (13) & F P R = \frac{F P}{T N + F P} \end{matrix}$
- ROC 曲線泛化性能的好壞，縱軸為真正率，橫軸為假正率，逐個將樣本作為正例，得到ROC曲線
AUC
- AUC為ROC曲線底下面積
- 分類器在二分類時預測概率，需要設置閾值判斷正負例。
- 考慮的是樣本預測排序質量，與排序損失緊密聯系。
  $R a n k L o s s = 1 m + m - \sum x + \in D + \sum x - \in D -$
  $A U C = 1 - R a n k L o s s$
- 排序質量的好壞綜合體現了學習器期望泛化性能的好壞，重視查准率在排序靠前的位置截斷，重視查全率在排序靠后的位置截斷

1.4 常用距離、相似度

閔可夫斯基距離

$\begin{matrix} (15) & d i s t (x_{i}, x_{j}) = (\sum_{k = 1}^{n} | x_{i k} - x_{j k} |^{p})^{\frac{1}{p}} \end{matrix}$
- p=2，歐式距離
- p=1，曼哈頓距離
馬氏距離

$\begin{matrix} (16) & d i s t (x_{i}, x_{j}) = \sqrt{(x_{i} - x_{j})^{T} s^{- 1} (x_{i} - x_{j})} \end{matrix}$
- 閔可夫斯基距離在使用之前需要標准化，而馬氏距離不需要
- 馬氏距離與量綱無關，排除了變量之間相關性的干擾
余弦相似度
$s i m (x i, x j) = x i \cdot x j | | x i | | \cdot |$
皮爾遜相關系數

$\begin{matrix} (18) & s i m (x_{i}, x_{j}) = \frac{(x_{i} - μ_{i}) \cdot (x_{j} - μ_{j})}{| | (x_{i} - μ_{i}) | | \cdot | | x_{j} - μ_{j} | |} \end{matrix}$
- 對余弦相似度去中心化
TF IDF
$T F (x i) = N x i \sum m k = 1 N x k (19)$
$I D F (x i) = l o g | D | 1 + | D c o n t a i n _ x i$
$T F - I D F (x i) = T F (x i) \cdot I D F (x i) (21)$

1.5 信息論指標

熵

$\begin{matrix} (22) & H (x) = - \sum_{x} p (x) l o g p (x) \end{matrix}$
- 熵可以看成是觀察事件X發生后我們獲得的期望信息量，H(x)越大，那么說明我們獲得的信息量越大
條件熵

$\begin{matrix} (22) & H (x | z) = - \sum_{x} \sum_{z} p (x, z) l o g p (x | z) = \sum_{x} p (x) H (x | Z = z) \end{matrix}$
- 表明已知z對x帶來的期望信息
相對熵

$\begin{matrix} (23) & K L (p | | q) = \sum_{x} p (x) l o g \frac{p (x)}{q (x)} \end{matrix}$
- KL散度衡量概率密度的距離相對於原分布p，分布q損失的信息量。
互信息、信息增益

$\begin{matrix} (24) & G a i n (x, z) = H (x) - H (x | z) \end{matrix}$
- 已知特征z為識別x帶來了多少的信息。
信息增益
$G a i n R a t i o (x, z) = H ( x ) - H ( x | z ) H x ( z ) (25)$
Gini指數
$G i n i (D) = 1 - \sum i = 1 c p 2 i (26)$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習評價指標機器學習常用的性能評價指標機器學習評價指標大匯總機器學習中的評價指標--01 機器學習算法評價指標機器學習分類算法評價指標機器學習評價指標大匯總機器學習評價指標整理機器學習面試--算法評價指標【機器學習】一文讀懂分類算法常用評價指標

機器學習(一)基礎常用損失函數、評價指標、距離、指標

機器學習(一)基礎常用損失函數、評價指標、距離、指標

機器學習(一)

1.基礎

(Keras)——keras 損失函數與評價指標詳解

免責聲明！