正規方程 Normal Equation
前幾篇博客介紹了一些梯度下降的有用技巧,特征縮放(詳見http://blog.csdn.net/u012328159/article/details/51030366)和學習率(詳見http://blog.csdn.net/u012328159/article/details/51030961)。在線性回歸中。為了求得參數
的最優值,一般採用梯度下降和本文將要介紹的正規方程(normal equation)。
的最優值,一般採用梯度下降和本文將要介紹的正規方程(normal equation)。相比較梯度下降採用多次迭代逼近的方式。normal equation採用矩陣運算能夠直接求解出參數
。先介紹下什么是normal equation,如果一個數據集X有m個樣本,n個特征。則如果函數為:
。數據集X的特征向量表示為:

表示第i個訓練樣本,
表示第i個訓練樣本的第j個特征。之所以在X中加了第一列全為1,是為了讓
若希望如果函數可以擬合Y,則
。又由於
,所以可以通過矩陣運算求出參數
。
。又由於
,所以可以通過矩陣運算求出參數
。
熟悉線性代數的同學應該知道怎么求出參數
。可是前提是矩陣X存在逆矩陣
。
。可是前提是矩陣X存在逆矩陣
。但僅僅有方陣才有可能存在逆矩陣(不熟悉定理的同學建議去補補線性代數),因此能夠通過左乘
使等式變成
,因此
,有同學可能會有疑問
不一定存在啊,確實是,可是
極少不存在,后面會介紹
不存在的處理方法,先別着急。如今你僅僅須要明確為什么
就能夠了。而且記住。
介紹完normal equation求解參數
,我們已經知道了兩種求解參數
的方法。normal equation和梯度下降。如今來對照下這兩種方法的優缺點以及什么場景選擇什么方法。
,我們已經知道了兩種求解參數
的方法。normal equation和梯度下降。如今來對照下這兩種方法的優缺點以及什么場景選擇什么方法。詳細見下表吧:

回到上面說的
不一定存在,這樣的情況是極少存在的。假設
不可逆了,一般要考慮一下兩者情況:
不一定存在,這樣的情況是極少存在的。假設
不可逆了,一般要考慮一下兩者情況:
(1) 移除冗余特征。一些特征存在線性依賴。
(2) 特征太多時,要刪除一些特征。比如(m<n),對於小樣本數據使用正則化。
