機器學習基石筆記14——機器可以怎樣學得更好（2）

本文轉載自查看原文 2015-04-06 11:03 2959 機器學習/ 學習筆記/ 人工智能/ L2正則化/ 機器學習基石/ Machine Learning/ 正則化/ 權重衰減

轉載請注明出處：http://www.cnblogs.com/ymingjingr/p/4271742.html

十四、Regularization

正則化。

14.1 Regularized Hypothesis Set

正則化假設。

上一章中提到了防止過擬合的五種措施，本章將介紹其中一種措施，正則化（Regularization）。

正則化的主要思想：將假設函從高次多項式的數降至低次，如同開車時的踩剎車，將速度降低，效果圖如圖14-1所示，右圖表示高次多項式函數，明顯產生了過擬合現象，而左圖的表示使用正則化后的低次函數。

圖14-1 正則化擬合與過擬合

已知高次多項式包含低次多項式，因此高次函數和低次函數的關系如圖14-2所示，本章的內容是在使用高次函數過擬合時，如何將假設函數降低為低次，即如何從外圍的大圈中回歸到內部的小圈。

圖14-2 高次函數與低次函數的關系圖

"正則化"這個詞來自於不適定問題（ill-posed problem）的函數逼近（function approximation），即在函數逼近中出現多個解，如何選擇解的問題。

如何降次？該問題使用到前幾章中提到的多項式轉換與線性回歸的知識，把降次的問題轉換成帶有限制（constraint）條件的問題。以下以10次多項式與二次式為例了解正則化，假設w的表達式分別如公式14-1與公式14-2。

（公式14-1）

（公式14-2）

公式14-2可以使用公式14-1加上如下限制條件表示，，

因此10次多項式的假設空間與最小的表達式分別如公式14-3和公式14-4。

（公式14-3）

（公式14-4）

通過上述結論，2次式的假設空間與最小的表達式分別如公式14-5和公式14-6。

（公式14-5）

（公式14-6）

如果將的條件設計的更寬松，表示成的形式，如公式14-7所示。

（公式14-7）

因此求的最優化的問題如公式14-8所示。

（公式14-8）

該假設空間與、的關系如公式14-9所示。

（公式14-9）

假設空間又被稱作稀疏（sparse）的假設空間，因為很多參數為0。注意公式14-8限制中的函數，表明該最優化問題為一個NP難問題。因此必須繼續改進假設函數，產生假設空間如公式14-10所示。

（公式14-10）

假設空間最優化的問題如公式14-11所示。

（公式14-11）

與有重疊部分，但是並不完全一致。隨着C的增大，的假設空間也在增大，可以得到如公式14-12所示。

（公式14-12）

稱假設空間為正則化假設空間，即假設限制條件的假設空間。正則化假設空間中最好的假設用符號表示。

14.2 Weight Decay Regularization

權值衰減正則化。

為了表述的簡便，將上一節的最優化公式14-11寫成向量矩陣的形式，如公式14-13所示。

（公式14-13）

插一句，通常解釋帶有限制條件的最優化問題都會引用拉格朗日函數，林老師更深入的解釋了拉格朗日乘子背后的因素。

首先繪制有限制條件的最優化示意圖，圖中藍色部分為，紅色部分為限制條件，從表達公式不難得出兩者一個為橢圓，一個為圓形（在高維空間中式超球體）。

圖14-4 有限制條件的最優化示意圖

從前面的章節中了解在求解最小時，可用梯度的反方向，即作為下降方向，但是與回歸問題還有一些不同，此處多了限制條件，因此下降的方向不可以超出限制的范圍，如圖14-3中紅色的向量為限制圓球切線的法向量，朝着該方向下降便超出了限制的范圍，因此只可以沿着球切線的方向滾動，如圖14-3中綠色的向量。何時降到最小？即實際滾動方向（圖中藍色的向量）不存在與球切線方向相同的分量，換句話說與球切線的法向量w相平行，如公式14-14所示，其中表示正則化最優解。

（公式14-14）

加入拉格朗日乘子，可寫成等式的形式，如公式14-15.

（公式14-15）

將線性回歸中求得的表達式（9.2節中求導過程）代入公式14-15，得公式14-16.

（公式14-16）

求出的表達式如公式14-17。

（公式14-17）

其中是半正定的，因此只要，則保證為正定矩陣，必可逆。該回歸形式被稱為嶺回歸（ridge regression）。

是否還記得線性回歸的直接形式，如公式14-18所示。

（公式14-18）

對公式14-15做成積分得公式14-19。

（公式14-19）

求公式14-19的最小解問題等價於公式14-19。其中該表達式稱為增廣錯誤（augmented error），用表示，其中為正則化項（regularizer）。用無限制條件的取代了上節中提到的有限制條件的。實際上使用了拉格朗日函數，但林老師是反推過去，之所以叫做增廣錯誤，是因為比傳統的多了一正則化項。在或時（的情況是線性回歸的求解），最小w的求解公式如公式14-20所示。

（公式14-20）

因此，不需要給出上一節中有條件的最小化問題中包含的參數C，而只需要給出增廣錯誤中的參數。

觀察參數對最終求得的的影響，如圖14-5。

圖14-5 參數對最終求得的的影響

在時，過擬合，隨着的不斷增大變成了欠擬合狀態。越大的對應着越短的權值向量w，同時也對應着越小的約束半徑C。（記得14.1節中如何處理欠擬合嗎？將C盡量縮小，准確的說尋找小的權值向量w），因此這種將w變小的正則化，即加上的正則化稱為權重衰減（weight-decay）正則化。此種正則化，可以和任意的轉換函數及任意的線性模型結合。

注意：在做多項式轉換時，假設，多項式轉換函數為則在高次項上時，數值非常小，為了和低次項對應的權值向量分量產生一致的影響力，則該項的權值一定非常大，但是正則化求解需要特別小的權值向量w，因此需要轉換后的多項式各項線性無關，即轉換函數為，其各項為正交基函數（orthonormal basis functions），此多項式稱為勒讓德多項式（Legendre polynomials），多項式的前5項如圖14-6所示。

圖14-6 勒讓德多項式的前5項表示

14.3 Regularization and VC Theory

正則化與VC理論。

本節介紹正則化與VC理論的關系。即從VC理論的角度說明為什么正則化的效果好（14.1節從過擬合的角度介紹正則化好的原因）。

最小化帶限制條件的與最小化等價，因為參數C類似與參數。通過7.4節的知識得知，的上限可以表示為公式14-21的形式。

（公式14-21）

因此，VC限制間接的保證了最小化可以得到最小的。

便於觀察對比，將的表達式重復寫一遍，如公式14-22。

（公式14-22）

上限更一般的形式可以寫成公式14-23。

（14-23）

通過公式14-22與公式14-23的對比，更容易理解最小化能獲得比最小化更好效果的原因。如公式14-22中正則化項表示一個假設函數的復雜度；而公式14-23中的表示整個假設空間的復雜度，如果（，其中表示該假設的復雜度）很好的代表，則比表現的更好。

上述是通過VC限制通過一個啟發式的方式說明正則化的優勢，接下來通過VC維闡述正則化的好處。

將最小化的形式寫成公式14-24。

（公式14-24）

按第七章的理論，VC維，在求解最小化時所有的假設函數都將被考慮。但是因為參數C或者更直接的來說參數的限制，實際被考慮的只有。因此有效的VC維與兩部分相關：假設空間H及算法A。實際的VC維很小意味着模型復雜度很低。

14.4 General Regularizers

一般化的正則化項。

本章的前幾節介紹的正則化項是權值衰減的正則化項（weight-decay (L2) regularizer），或稱為L2正則化項，標量形式為，向量形式為。那么更一般的正則化項應該如何設計，或者一般化的正則化項的設計原則是什么？主要分為三點，如下：

依據目標函數（target-dependent），即根據目標函數的性質設計正則化項，如某目標函數是對稱函數，因此權值向量的所有奇數分量應被抑制，可以設計成的形式，在奇數時增加；

可以說得通（plausible）：正則化項應盡可能地平滑（smooth）或簡單（simpler），因為不論是隨機性噪音還是確定性噪音都不是平滑的。平滑表示可微，如L2。簡單表示容易求解，如L1正則化項或稀疏（sparsity）正則化項：，稍后介紹；

友好：易於最優化的求解。如L2。

即使設計的正則化項不好也不用擔心，因為還存在一個參數，當其為0時，則正則化項不起作用。

回憶8.3節，錯誤衡量的設計原則，與此類似，依據用戶（user-dependent），說得通，友好。

因此最終的增廣錯誤由錯誤函數和正則化項兩部分組成，如公式14-25所示。

（公式14-25）

通過比較常用的兩種正則化項（L2和L1）具體的解釋上述設計原則。

L2的正則化示意圖如圖14-7所示，正則化項如公式14-26。

圖14-7 L2正則化示意圖

（公式14-26）

該正則化項在為凸函數，在每個位置都可以微分，因此比較容易計算。

再介紹一種新的正則化項L1，其示意圖如圖14-8所示正則化項如公式14-27。

圖14-8 L1正則化項示意圖

（公式14-27）

同樣也是凸圖形，但是並不是所有的位置都可微，如轉角處。為何成為稀疏？假設菱形法相w全是不為零的分量，因此微分得的向量為分量全為1的向量。如果與該全為1的向量不平行，則向量一直會沿着菱形邊界移動到頂點處，因此在頂點處產生最優解，最優解含有值為0的分量，因此為稀疏的解，計算速度快。

在結束本章前，觀察在不同噪音情況下，參數如何選擇。目標函數設計成15次多項式函數，如圖14-9表示固定確定性噪音，不同隨機性噪音下，參數最佳選擇，橫坐標表示參數的選擇，縱坐標表示，其中加粗的點表示在該種噪音情況下參數的最佳取值。（此處因為是為了觀察在不同噪音下如何選擇參數，目標函數是已知的，所以可以求出，現實中是不可能的，下一個例子也是如此，不再重復解釋）