機器學習,評估——風險函數


1.損失函數vs風險函數

損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。

2.風險函數定義

風險函數(risk function)=期望風險(expected Risk=期望損失(expected loss),可以認為是平均意義下的損失。

例如:下面的對數損失函數中,損失函數的期望,就是理論上模型f(X)關於聯合分布P(X,Y)的平均意義下的損失。

風險函數有兩種,不考慮正則項的是經驗風險(Empirical Risk),考慮過擬合問題,加上正則項的是結構風險(Structural Risk)。

監督學習的兩種基本策略:經驗風險最小化(ERM)和結構風險最小化(SRM)。

這樣,監督學習問題就成了經驗風險或結構風險函數的最優化問題(1.11)和(1.13)。經驗或結構風險函數是最優化的目標函數。

(1)三個風險的關系

期望風險是理想,是白月光,是可望不可求的,只能用經驗風險去近似,而結構風險是經驗風險的升級版。

為什么可以用經驗風險估計期望風險呢?

根據大數定律,當樣本容量N趨於無窮時,經驗風險Remp(f)趨於期望風險Rexp(f)。所以一個很自然的想法是用經驗風險估計期望風險。

但是,由於現實中的訓練樣本數目有限,甚至很小,所以用經驗風險估計期望風險常常並不理想,要對經驗風險進行一定的矯正。這就關系到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。

(2)期望風險(expected Risk)【全局,理想】

期望風險對所有樣本預測錯誤程度的均值,基於所有樣本點損失函數最小化。期望風險是全局最優,是理想化的不可求的。

期望風險=期望損失=風險函數,也就是損失L(Y,f(X))的數學期望,在理論上,可以代入期望公式EX=∑xi·Pi=∫x·f(x)dx,也就是E(L(Y,f(X))=∫L(y,f(x))·f(x,y) dxdy。

\large R_{exp}=E_{p}[L(Y,f(X))]=\int_{X\times Y}^{ }L(y,f(x)))\cdot P(x,y) dxdy

但是由於聯合概率密度函數f(x,y)不知道,所以此路不通,只能另尋他路,也就是根據經驗找近似。【這個矛盾,可以在文末的一張圖上體現】

(3)經驗風險(Empirical Risk)【局部,現實】

經驗風險,基於訓練集所有樣本點損失函數的平均最小化。經驗風險是局部最優,是現實的可求的。

經驗風險=經驗損失=代價函數

給定一個數據集,模型f(x)關於訓練集的平均損失被稱為經驗風險(empirical risk)或經驗損失(empirical loss)。

這個公式的用意很明顯,就是模型關於訓練集的平均損失(每個樣本的損失加起來,然后平均一下)。在實際中用的時候,我們也就很自然的這么用了。

(4)結構風險(Structural Risk)

結構風險,就是在經驗風險上加上一個正則化項(regularizer)或者叫做罰項(penalty term),即

3.經驗風險最小化和結構風險最小化

(1)經驗風險最小化&結構風險最小化

經驗風險最小化(empirical risk minimization,ERM),就是認為經驗風險最小的模型是最優的模型,用公式表示:


這個理論很符合人的直觀理解。因為在訓練集上面的經驗風險最小,也就是平均損失越小,意味着模型得到結果和“真實值”盡可能接近,表明模型越好。

 

當樣本容量不大的時候,經驗風險最小化模型容易產生“過擬合”的問題。為了“減緩”過擬合問題,就提出了結構風險最小的理論。

結構風險最小化structural risk minimization,SRM)就是認為,結構風險最小的模型是最優模型,公式表示:

 

(2)經驗風險最小化的例子:極大似然估計(maximum likelihood estimation)。

模型,條件概率分布;

損失函數,對數損失函數;

  經驗風險最小化等價於極大似然估計。

(2)結構風險最小化的例子:貝葉斯最大后驗概率估計。

模型,條件概率分布;

損失函數,對數損失函數;

模型復雜度,由先驗概率表示;

結構風險=經驗風險+正則項=后驗概率+先驗概率;

先驗概率不變,結構風險最小化,等價於最大后驗概率估計。

 

4.風險函數與對數損失函數

 

 

 

參考:

李航《統計學習方法》

https://blog.csdn.net/xierhacker/article/details/53366723?utm_source=copy

(structural risk minimization,SRM)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM