轉載請注明出處:http://www.cnblogs.com/ymingjingr/p/4271742.html
目錄
機器學習基石筆記1——在何時可以使用機器學習(1)
機器學習基石筆記2——在何時可以使用機器學習(2)
機器學習基石筆記3——在何時可以使用機器學習(3)(修改版)
機器學習基石筆記4——在何時可以使用機器學習(4)
機器學習基石筆記5——為什么機器可以學習(1)
機器學習基石筆記6——為什么機器可以學習(2)
機器學習基石筆記7——為什么機器可以學習(3)
機器學習基石筆記8——為什么機器可以學習(4)
機器學習基石筆記9——機器可以怎樣學習(1)
機器學習基石筆記10——機器可以怎樣學習(2)
機器學習基石筆記11——機器可以怎樣學習(3)
機器學習基石筆記12——機器可以怎樣學習(4)
機器學習基石筆記13——機器可以怎樣學得更好(1)
機器學習基石筆記14——機器可以怎樣學得更好(2)
機器學習基石筆記15——機器可以怎樣學得更好(3)
機器學習基石筆記16——機器可以怎樣學得更好(4)
十四、Regularization
正則化。
14.1 Regularized Hypothesis Set
正則化假設。
上一章中提到了防止過擬合的五種措施,本章將介紹其中一種措施,正則化(Regularization)。
正則化的主要思想:將假設函從高次多項式的數降至低次,如同開車時的踩剎車,將速度降低,效果圖如圖14-1所示,右圖表示高次多項式函數,明顯產生了過擬合現象,而左圖的表示使用正則化后的低次函數。
圖14-1 正則化擬合與過擬合
已知高次多項式包含低次多項式,因此高次函數和低次函數的關系如圖14-2所示,本章的內容是在使用高次函數過擬合時,如何將假設函數降低為低次,即如何從外圍的大圈中回歸到內部的小圈。
圖14-2 高次函數與低次函數的關系圖
"正則化"這個詞來自於不適定問題(ill-posed problem)的函數逼近(function approximation),即在函數逼近中出現多個解,如何選擇解的問題。
如何降次?該問題使用到前幾章中提到的多項式轉換與線性回歸的知識,把降次的問題轉換成帶有限制(constraint)條件的問題。以下以10次多項式與二次式為例了解正則化,假設w的表達式分別如公式14-1與公式14-2。
(公式14-1)
(公式14-2)
公式14-2可以使用公式14-1加上如下限制條件表示, ,
因此10次多項式的假設空間與最小 的表達式分別如公式14-3和公式14-4。
(公式14-3)
(公式14-4)
通過上述結論,2次式的假設空間與最小的表達式分別如公式14-5和公式14-6。
(公式14-5)
(公式14-6)
如果將的條件設計的更寬松,表示成
的形式,如公式14-7所示。
(公式14-7)
因此求的最優化
的問題如公式14-8所示。
(公式14-8)
該假設空間與、
的關系如公式14-9所示。
(公式14-9)
假設空間又被稱作稀疏(sparse)的假設空間,因為很多參數為0。注意公式14-8限制中的
函數,表明該最優化問題為一個NP難問題。因此必須繼續改進假設函數,產生假設空間
如公式14-10所示。
(公式14-10)
假設空間最優化
的問題如公式14-11所示。
(公式14-11)
與
有重疊部分,但是並不完全一致。隨着C的增大,
的假設空間也在增大,可以得到如公式14-12所示。
(公式14-12)
稱假設空間為正則化假設空間,即假設限制條件的假設空間。正則化假設空間中最好的假設用符號
表示。
14.2 Weight Decay Regularization
權值衰減正則化。
為了表述的簡便,將上一節的最優化公式14-11寫成向量矩陣的形式,如公式14-13所示。
(公式14-13)
插一句,通常解釋帶有限制條件的最優化問題都會引用拉格朗日函數,林老師更深入的解釋了拉格朗日乘子背后的因素。
首先繪制有限制條件的最優化示意圖,圖中藍色部分為,紅色部分為限制條件
,從表達公式不難得出兩者一個為橢圓,一個為圓形(在高維空間中式超球體)。
圖14-4 有限制條件的最優化示意圖
從前面的章節中了解在求解最小時,可用
梯度的反方向,即
作為下降方向,但是與回歸問題還有一些不同,此處多了限制條件
,因此下降的方向不可以超出限制的范圍,如圖14-3中紅色的向量為限制圓球切線的法向量,朝着該方向下降便超出了限制的范圍,因此只可以沿着球切線的方向滾動,如圖14-3中綠色的向量。何時降到最小?即實際滾動方向(圖中藍色的向量)不存在與球切線方向相同的分量,換句話說
與球切線的法向量w相平行,如公式14-14所示,其中
表示正則化最優解。
(公式14-14)
加入拉格朗日乘子 ,可寫成等式的形式,如公式14-15.
(公式14-15)
將線性回歸中求得的表達式(9.2節中求導過程)代入公式14-15,得公式14-16.
(公式14-16)
求出的表達式如公式14-17。
(公式14-17)
其中是半正定的,因此只要
,則保證
為正定矩陣,必可逆。該回歸形式被稱為嶺回歸(ridge regression)。
是否還記得線性回歸的直接形式,如公式14-18所示。
(公式14-18)
對公式14-15做成積分得公式14-19。
(公式14-19)
求公式14-19的最小解問題等價於公式14-19。其中該表達式稱為增廣錯誤(augmented error),用 表示,其中
為正則化項(regularizer)。用無限制條件的
取代了上節中提到的有限制條件的
。實際上使用了拉格朗日函數,但林老師是反推過去,之所以叫做增廣錯誤,是因為比傳統的
多了一正則化項。在
或
時(
的情況是線性回歸的求解),最小w的求解公式如公式14-20所示。
(公式14-20)
因此,不需要給出上一節中有條件的最小化問題中包含的參數C,而只需要給出增廣錯誤中的參數。
觀察參數對最終求得的
的影響,如圖14-5。
圖14-5 參數對最終求得的
的影響
在時,過擬合,隨着
的不斷增大變成了欠擬合狀態。越大的
對應着越短的權值向量w,同時也對應着越小的約束半徑C。(記得14.1節中如何處理欠擬合嗎?將C盡量縮小,准確的說尋找小的權值向量w),因此這種將w變小的正則化,即加上
的正則化稱為權重衰減(weight-decay)正則化。此種正則化,可以和任意的轉換函數及任意的線性模型結合。
注意:在做多項式轉換時,假設 ,多項式轉換函數為
則在高次項
上時,數值非常小,為了和低次項對應的權值向量分量產生一致的影響力,則該項的權值
一定非常大,但是正則化求解需要特別小的權值向量w,因此需要轉換后的多項式各項線性無關,即轉換函數為
,其各項為正交基函數(orthonormal basis functions),此多項式稱為勒讓德多項式(Legendre polynomials),多項式的前5項如圖14-6所示。
圖14-6 勒讓德多項式的前5項表示
14.3 Regularization and VC Theory
正則化與VC理論。
本節介紹正則化與VC理論的關系。即從VC理論的角度說明為什么正則化的效果好(14.1節從過擬合的角度介紹正則化好的原因)。
最小化帶限制條件的與最小化
等價,因為參數C類似與參數
。通過7.4節的知識得知,
的上限可以表示為公式14-21的形式。
(公式14-21)
因此,VC限制間接的保證了最小化可以得到最小的
。
便於觀察對比,將的表達式重復寫一遍,如公式14-22。
(公式14-22)
上限更一般的形式可以寫成公式14-23。
(14-23)
通過公式14-22與公式14-23的對比,更容易理解最小化能獲得比最小化
更好效果的原因。如公式14-22中正則化項
表示一個假設函數的復雜度;而公式14-23中的
表示整個假設空間的復雜度,如果
(
,其中
表示該假設的復雜度)很好的代表
,則
比
表現的更好。
上述是通過VC限制通過一個啟發式的方式說明正則化的優勢,接下來通過VC維闡述正則化的好處。
將最小化的形式寫成公式14-24。
(公式14-24)
按第七章的理論,VC維 , 在求解最小化時所有的假設函數
都將被考慮。但是因為參數C或者更直接的來說參數
的限制,實際被考慮的只有
。因此有效的VC維
與兩部分相關:假設空間H及算法A。實際的VC維很小意味着模型復雜度很低。
14.4 General Regularizers
一般化的正則化項。
本章的前幾節介紹的正則化項是權值衰減的正則化項(weight-decay (L2) regularizer),或稱為L2正則化項,標量形式為 ,向量形式為
。那么更一般的正則化項應該如何設計,或者一般化的正則化項的設計原則是什么?主要分為三點,如下:
依據目標函數(target-dependent),即根據目標函數的性質設計正則化項,如某目標函數是對稱函數,因此權值向量的所有奇數分量應被抑制,可以設計成 的形式,在奇數時增加;
可以說得通(plausible):正則化項應盡可能地平滑(smooth)或簡單(simpler),因為不論是隨機性噪音還是確定性噪音都不是平滑的。平滑表示可微,如L2。簡單表示容易求解,如L1正則化項或稀疏(sparsity)正則化項: ,稍后介紹;
友好:易於最優化的求解。如L2。
即使設計的正則化項不好也不用擔心,因為還存在一個參數 ,當其為0時,則正則化項不起作用。
回憶8.3節,錯誤衡量的設計原則,與此類似,依據用戶(user-dependent),說得通,友好。
因此最終的增廣錯誤由錯誤函數和正則化項兩部分組成,如公式14-25所示。
(公式14-25)
通過比較常用的兩種正則化項(L2和L1)具體的解釋上述設計原則。
L2的正則化示意圖如圖14-7所示,正則化項如公式14-26。
圖14-7 L2正則化示意圖
(公式14-26)
該正則化項在為凸函數,在每個位置都可以微分,因此比較容易計算。
再介紹一種新的正則化項L1,其示意圖如圖14-8所示正則化項如公式14-27。
圖14-8 L1正則化項示意圖
(公式14-27)
同樣也是凸圖形,但是並不是所有的位置都可微,如轉角處。為何成為稀疏?假設菱形法相w全是不為零的分量,因此微分得的向量為分量全為1的向量。如果與該全為1的向量不平行,則向量一直會沿着菱形邊界移動到頂點處,因此在頂點處產生最優解,最優解含有值為0的分量,因此為稀疏的解,計算速度快。
在結束本章前,觀察在不同噪音情況下,參數如何選擇。目標函數設計成15次多項式函數,如圖14-9表示固定確定性噪音,不同隨機性噪音下,參數
最佳選擇,橫坐標表示參數
的選擇,縱坐標表示
,其中加粗的點表示在該種噪音情況下參數
的最佳取值。(此處因為是為了觀察在不同噪音下如何選擇參數
,目標函數是已知的,所以可以求出
,現實中是不可能的,下一個例子也是如此,不再重復解釋)
圖14-9 不同隨機性噪音下參數的選擇
目標函數設計成15次多項式函數,如圖14-10表示固定隨機性噪音,不同確定性噪音下,參數最佳選擇,橫坐標表示參數
的選擇,縱坐標表示
,其中加粗的點表示在該種噪音情況下參數
的最佳取值。
圖14-10不同確定性噪音下參數的選擇
從上述兩個圖中不難得出,越大的噪音需要越大的正則化,這如同越顛簸的路,越需要踩剎車一樣。但是一個更重要的問題卻沒有解決,即在噪音未知的情況下,如何選擇參數,這是下章的內容。