1.損失函數vs風險函數
損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。
2.風險函數定義
風險函數(risk function)=期望風險(expected Risk)=期望損失(expected loss),可以認為是平均意義下的損失。
例如:下面的對數損失函數中,損失函數的期望,就是理論上模型f(X)關於聯合分布P(X,Y)的平均意義下的損失。
風險函數有兩種,不考慮正則項的是經驗風險(Empirical Risk),考慮過擬合問題,加上正則項的是結構風險(Structural Risk)。
監督學習的兩種基本策略:經驗風險最小化(ERM)和結構風險最小化(SRM)。
這樣,監督學習問題就變成了經驗風險或結構風險函數的最優化問題(1.11)和(1.13)。經驗或結構風險函數是最優化的目標函數。
(1)三個風險的關系
期望風險是理想,是白月光,是可望不可求的,只能用經驗風險去近似,而結構風險是經驗風險的升級版。
為什么可以用經驗風險估計期望風險呢?
根據大數定律,當樣本容量N趨於無窮時,經驗風險Remp(f)趨於期望風險Rexp(f)。所以一個很自然的想法是用經驗風險估計期望風險。
但是,由於現實中的訓練樣本數目有限,甚至很小,所以用經驗風險估計期望風險常常並不理想,要對經驗風險進行一定的矯正。這就關系到監督學習的兩個基本策略:經驗風險最小化和結構風險最小化。
(2)期望風險(expected Risk)【全局,理想】
期望風險對所有樣本預測錯誤程度的均值,基於所有樣本點損失函數最小化。期望風險是全局最優,是理想化的不可求的。
期望風險=期望損失=風險函數,也就是損失L(Y,f(X))的數學期望,在理論上,可以代入期望公式EX=∑xi·Pi=∫x·f(x)dx,也就是E(L(Y,f(X))=∫L(y,f(x))·f(x,y) dxdy。
但是由於聯合概率密度函數f(x,y)不知道,所以此路不通,只能另尋他路,也就是根據經驗找近似。【這個矛盾,可以在文末的一張圖上體現】
(3)經驗風險(Empirical Risk)【局部,現實】
經驗風險,基於訓練集所有樣本點損失函數的平均最小化。經驗風險是局部最優,是現實的可求的。
經驗風險=經驗損失=代價函數
給定一個數據集,模型f(x)關於訓練集的平均損失被稱為經驗風險(empirical risk)或經驗損失(empirical loss)。
這個公式的用意很明顯,就是模型關於訓練集的平均損失(每個樣本的損失加起來,然后平均一下)。在實際中用的時候,我們也就很自然的這么用了。
(4)結構風險(Structural Risk)
結構風險,就是在經驗風險上加上一個正則化項(regularizer)或者叫做罰項(penalty term),即
3.經驗風險最小化和結構風險最小化
(1)經驗風險最小化&結構風險最小化
經驗風險最小化(empirical risk minimization,ERM),就是認為經驗風險最小的模型是最優的模型,用公式表示:
這個理論很符合人的直觀理解。因為在訓練集上面的經驗風險最小,也就是平均損失越小,意味着模型得到結果和“真實值”盡可能接近,表明模型越好。
當樣本容量不大的時候,經驗風險最小化模型容易產生“過擬合”的問題。為了“減緩”過擬合問題,就提出了結構風險最小的理論。
結構風險最小化(structural risk minimization,SRM),就是認為,結構風險最小的模型是最優模型,公式表示:
(2)經驗風險最小化的例子:極大似然估計(maximum likelihood estimation)。
模型,條件概率分布;
損失函數,對數損失函數;
經驗風險最小化等價於極大似然估計。
(2)結構風險最小化的例子:貝葉斯最大后驗概率估計。
模型,條件概率分布;
損失函數,對數損失函數;
模型復雜度,由先驗概率表示;
結構風險=經驗風險+正則項=后驗概率+先驗概率;
先驗概率不變,結構風險最小化,等價於最大后驗概率估計。
4.風險函數與對數損失函數
參考:
李航《統計學習方法》
https://blog.csdn.net/xierhacker/article/details/53366723?utm_source=copy
(structural risk minimization,SRM)