(整理自AndrewNG的課件,轉載請注明。整理者:華科小濤@http://www.cnblogs.com/hust-ghtao/)
在上篇博客中,我們提出了線性回歸的概念,給出了一種使代價函數最小的方法:梯度下降法。在本篇博客中,我們給出另一種方法:正規方程。
是關於
的函數,要求此函數的最小值,有人說可以求導啊,另
,求出相應的
即可,本文提出的就是此方法。但是由於
是一個矩陣(向量是特殊的矩陣),我們需要關於矩陣求導方面的知識。
1 矩陣求導
假設函數將
階矩陣映射到實數空間,我們定義
對於
階矩陣
求導為:
所以導函數也是階的矩陣。例如假設:
而,求
:
另外介紹矩陣跡的概念:對於一個的矩陣
,它的跡就是它的對角線的元素求和:
,矩陣的跡有如下的性質:
上述介紹了矩陣函數的求導法則和矩陣跡的概念,下面給出一些后面要用到的結論:
2 正規方程
大家不用太糾結於基礎知識,只是一個推到工具而已,下面才是正題。磨好工具,就去砍柴吧:
我們的任務是對代價函數求導:即令,然后解出
。給定訓練集,定義設計矩陣(design matrix)
,其中
是輸入特征的維數,
是訓練集中訓練樣本的個數。將
寫成下列形式:
同樣,定義目標向量:
另外對於向量,我們有
,所以:
so:
注意在推導過程中,步驟4我們用到了公式(1),令
。令導函數的值為0,我們得到正規方程:
解出:
總結一下:整篇充斥着公式推導,但思路很簡單:欲求代價函數的最小值,令其導函數為0,求出參數即可。最后提點建議,機器學習中是有很多公式推倒的內容,本人認為結論固然重要,但得來的過程也很重要,只有知其然並知其所以然,才能對背后的思想有更深刻的認識。檢驗自己是否弄懂了公式:看自己能否獨立推導出結果。