機器學習基石筆記14——機器可以怎樣學得更好(2)


轉載請注明出處:http://www.cnblogs.com/ymingjingr/p/4271742.html

目錄

機器學習基石筆記1——在何時可以使用機器學習(1)

機器學習基石筆記2——在何時可以使用機器學習(2)

機器學習基石筆記3——在何時可以使用機器學習(3)(修改版)

機器學習基石筆記4——在何時可以使用機器學習(4)

機器學習基石筆記5——為什么機器可以學習(1)

機器學習基石筆記6——為什么機器可以學習(2)

機器學習基石筆記7——為什么機器可以學習(3)

機器學習基石筆記8——為什么機器可以學習(4)

機器學習基石筆記9——機器可以怎樣學習(1)

機器學習基石筆記10——機器可以怎樣學習(2)

機器學習基石筆記11——機器可以怎樣學習(3)

機器學習基石筆記12——機器可以怎樣學習(4)

機器學習基石筆記13——機器可以怎樣學得更好(1)

機器學習基石筆記14——機器可以怎樣學得更好(2)

機器學習基石筆記15——機器可以怎樣學得更好(3)

機器學習基石筆記16——機器可以怎樣學得更好(4)

十四、Regularization

正則化。

14.1 Regularized Hypothesis Set

正則化假設。

上一章中提到了防止過擬合的五種措施,本章將介紹其中一種措施,正則化(Regularization)。

正則化的主要思想:將假設函從高次多項式的數降至低次,如同開車時的踩剎車,將速度降低,效果圖如圖14-1所示,右圖表示高次多項式函數,明顯產生了過擬合現象,而左圖的表示使用正則化后的低次函數。

 

圖14-1 正則化擬合與過擬合

 

已知高次多項式包含低次多項式,因此高次函數和低次函數的關系如圖14-2所示,本章的內容是在使用高次函數過擬合時,如何將假設函數降低為低次,即如何從外圍的大圈中回歸到內部的小圈。

 

圖14-2 高次函數與低次函數的關系圖

 

"正則化"這個詞來自於不適定問題(ill-posed problem)的函數逼近(function approximation),即在函數逼近中出現多個解,如何選擇解的問題。

如何降次?該問題使用到前幾章中提到的多項式轉換與線性回歸的知識,把降次的問題轉換成帶有限制(constraint)條件的問題。以下以10次多項式與二次式為例了解正則化,假設w的表達式分別如公式14-1與公式14-2。

 

    (公式14-1)

 

    (公式14-2)

 

公式14-2可以使用公式14-1加上如下限制條件表示,

 

因此10次多項式的假設空間與最小 的表達式分別如公式14-3和公式14-4。

 

    (公式14-3)

 

    (公式14-4)

 

通過上述結論,2次式的假設空間與最小的表達式分別如公式14-5和公式14-6。

 

    (公式14-5)

 

    (公式14-6)

 

如果將的條件設計的更寬松,表示成的形式,如公式14-7所示。

 

    (公式14-7)

 

因此求的最優化的問題如公式14-8所示。

 

    (公式14-8)

 

該假設空間與的關系如公式14-9所示。

 

    (公式14-9)

 

假設空間又被稱作稀疏(sparse)的假設空間,因為很多參數為0。注意公式14-8限制中的 函數,表明該最優化問題為一個NP難問題。因此必須繼續改進假設函數,產生假設空間如公式14-10所示。

 

    (公式14-10)

 

假設空間最優化的問題如公式14-11所示。

 

    (公式14-11)

 

有重疊部分,但是並不完全一致。隨着C的增大, 的假設空間也在增大,可以得到如公式14-12所示。

 

    (公式14-12)

 

稱假設空間為正則化假設空間,即假設限制條件的假設空間。正則化假設空間中最好的假設用符號 表示。

 

14.2 Weight Decay Regularization

權值衰減正則化。

為了表述的簡便,將上一節的最優化公式14-11寫成向量矩陣的形式,如公式14-13所示。

 

    (公式14-13)

 

插一句,通常解釋帶有限制條件的最優化問題都會引用拉格朗日函數,林老師更深入的解釋了拉格朗日乘子背后的因素。

首先繪制有限制條件的最優化示意圖,圖中藍色部分為,紅色部分為限制條件,從表達公式不難得出兩者一個為橢圓,一個為圓形(在高維空間中式超球體)。

 

圖14-4 有限制條件的最優化示意圖

 

從前面的章節中了解在求解最小時,可用梯度的反方向,即 作為下降方向,但是與回歸問題還有一些不同,此處多了限制條件,因此下降的方向不可以超出限制的范圍,如圖14-3中紅色的向量為限制圓球切線的法向量,朝着該方向下降便超出了限制的范圍,因此只可以沿着球切線的方向滾動,如圖14-3中綠色的向量。何時降到最小?即實際滾動方向(圖中藍色的向量)不存在與球切線方向相同的分量,換句話說與球切線的法向量w相平行,如公式14-14所示,其中表示正則化最優解。

 

    (公式14-14)

 

加入拉格朗日乘子 ,可寫成等式的形式,如公式14-15.

 

    (公式14-15)

 

將線性回歸中求得的表達式(9.2節中求導過程)代入公式14-15,得公式14-16.

 

    (公式14-16)

 

求出的表達式如公式14-17。

 

    (公式14-17)

 

其中是半正定的,因此只要,則保證為正定矩陣,必可逆。該回歸形式被稱為嶺回歸(ridge regression)。

是否還記得線性回歸的直接形式,如公式14-18所示。

 

    (公式14-18)

 

對公式14-15做成積分得公式14-19。

 

        (公式14-19)

 

求公式14-19的最小解問題等價於公式14-19。其中該表達式稱為增廣錯誤(augmented error),用 表示,其中為正則化項(regularizer)。用無限制條件的取代了上節中提到的有限制條件的。實際上使用了拉格朗日函數,但林老師是反推過去,之所以叫做增廣錯誤,是因為比傳統的多了一正則化項。在時(的情況是線性回歸的求解),最小w的求解公式如公式14-20所示。

 

    (公式14-20)

 

因此,不需要給出上一節中有條件的最小化問題中包含的參數C,而只需要給出增廣錯誤中的參數

觀察參數對最終求得的的影響,如圖14-5。

 

圖14-5 參數對最終求得的的影響

 

時,過擬合,隨着的不斷增大變成了欠擬合狀態。越大的對應着越短的權值向量w,同時也對應着越小的約束半徑C。(記得14.1節中如何處理欠擬合嗎?將C盡量縮小,准確的說尋找小的權值向量w),因此這種將w變小的正則化,即加上的正則化稱為權重衰減(weight-decay)正則化。此種正則化,可以和任意的轉換函數及任意的線性模型結合。

注意:在做多項式轉換時,假設 ,多項式轉換函數為 則在高次項 上時,數值非常小,為了和低次項對應的權值向量分量產生一致的影響力,則該項的權值 一定非常大,但是正則化求解需要特別小的權值向量w,因此需要轉換后的多項式各項線性無關,即轉換函數為,其各項為正交基函數(orthonormal basis functions),此多項式稱為勒讓德多項式(Legendre polynomials),多項式的前5項如圖14-6所示。

 

圖14-6 勒讓德多項式的前5項表示

 

14.3 Regularization and VC Theory

正則化與VC理論。

本節介紹正則化與VC理論的關系。即從VC理論的角度說明為什么正則化的效果好(14.1節從過擬合的角度介紹正則化好的原因)。

最小化帶限制條件的與最小化等價,因為參數C類似與參數 。通過7.4節的知識得知,的上限可以表示為公式14-21的形式。

 

    (公式14-21)

 

因此,VC限制間接的保證了最小化可以得到最小的

便於觀察對比,將的表達式重復寫一遍,如公式14-22。

 

    (公式14-22)

 

上限更一般的形式可以寫成公式14-23。

 

    (14-23)

 

通過公式14-22與公式14-23的對比,更容易理解最小化能獲得比最小化更好效果的原因。如公式14-22中正則化項表示一個假設函數的復雜度;而公式14-23中的表示整個假設空間的復雜度,如果,其中表示該假設的復雜度)很好的代表,則表現的更好。

上述是通過VC限制通過一個啟發式的方式說明正則化的優勢,接下來通過VC維闡述正則化的好處。

將最小化的形式寫成公式14-24。

 

    (公式14-24)

 

按第七章的理論,VC維 , 在求解最小化時所有的假設函數 都將被考慮。但是因為參數C或者更直接的來說參數 的限制,實際被考慮的只有 。因此有效的VC維 與兩部分相關:假設空間H及算法A。實際的VC維很小意味着模型復雜度很低。

 

14.4 General Regularizers

一般化的正則化項。

本章的前幾節介紹的正則化項是權值衰減的正則化項(weight-decay (L2) regularizer),或稱為L2正則化項,標量形式為 ,向量形式為。那么更一般的正則化項應該如何設計,或者一般化的正則化項的設計原則是什么?主要分為三點,如下:

依據目標函數(target-dependent),即根據目標函數的性質設計正則化項,如某目標函數是對稱函數,因此權值向量的所有奇數分量應被抑制,可以設計成 的形式,在奇數時增加;

可以說得通(plausible):正則化項應盡可能地平滑(smooth)或簡單(simpler),因為不論是隨機性噪音還是確定性噪音都不是平滑的。平滑表示可微,如L2。簡單表示容易求解,如L1正則化項或稀疏(sparsity)正則化項: ,稍后介紹;

友好:易於最優化的求解。如L2。

即使設計的正則化項不好也不用擔心,因為還存在一個參數 ,當其為0時,則正則化項不起作用。

回憶8.3節,錯誤衡量的設計原則,與此類似,依據用戶(user-dependent),說得通,友好。

因此最終的增廣錯誤由錯誤函數和正則化項兩部分組成,如公式14-25所示。

 

        (公式14-25)

 

通過比較常用的兩種正則化項(L2和L1)具體的解釋上述設計原則。

L2的正則化示意圖如圖14-7所示,正則化項如公式14-26。

 

圖14-7 L2正則化示意圖

 

        (公式14-26)

 

該正則化項在為凸函數,在每個位置都可以微分,因此比較容易計算。

再介紹一種新的正則化項L1,其示意圖如圖14-8所示正則化項如公式14-27。

 

圖14-8 L1正則化項示意圖

 

        (公式14-27)

 

同樣也是凸圖形,但是並不是所有的位置都可微,如轉角處。為何成為稀疏?假設菱形法相w全是不為零的分量,因此微分得的向量為分量全為1的向量。如果與該全為1的向量不平行,則向量一直會沿着菱形邊界移動到頂點處,因此在頂點處產生最優解,最優解含有值為0的分量,因此為稀疏的解,計算速度快。

在結束本章前,觀察在不同噪音情況下,參數如何選擇。目標函數設計成15次多項式函數,如圖14-9表示固定確定性噪音,不同隨機性噪音下,參數最佳選擇,橫坐標表示參數的選擇,縱坐標表示 ,其中加粗的點表示在該種噪音情況下參數的最佳取值。(此處因為是為了觀察在不同噪音下如何選擇參數,目標函數是已知的,所以可以求出,現實中是不可能的,下一個例子也是如此,不再重復解釋)

 

圖14-9 不同隨機性噪音下參數的選擇

 

目標函數設計成15次多項式函數,如圖14-10表示固定隨機性噪音,不同確定性噪音下,參數最佳選擇,橫坐標表示參數的選擇,縱坐標表示,其中加粗的點表示在該種噪音情況下參數的最佳取值。

 

圖14-10不同確定性噪音下參數的選擇

 

從上述兩個圖中不難得出,越大的噪音需要越大的正則化,這如同越顛簸的路,越需要踩剎車一樣。但是一個更重要的問題卻沒有解決,即在噪音未知的情況下,如何選擇參數,這是下章的內容。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM