使用最大似然法來求解線性模型（4）-最大化似然函數背后的數學原理

本文轉載自查看原文 2017-03-28 12:10 1912 線性模型/ 機器學習/ 最大似然函數/ 黑塞矩陣/ machine learning

在使用最大似然法來求解線性模型（3）-求解似然函數文章中，我們讓 logL 對 w 求一階偏導數，讓偏導數等於0，解出 w，這個 w 就是使logL取最大值的w

那為什么令一階偏導數等於0，求得的w就能夠使 logL 取最大值呢？

在高等數學中，對於一元可導函數f(x)而言，一階導數f^′(x)=0的點稱為拐點。而拐點不一定是極值點，一種判斷拐點是否是極值點的方式是：判斷拐點處的二階導數是否大於0

若拐點處的二階導數大於0，則f(x)在拐點處取極小值；若拐點處的二階導數小於0，則f(x)在拐點處取極大值；若拐點處的二階導數等於0，則拐點處不是極值。

上面的結論，可以用f(x)=x² 和 f(x)=x³ 來驗證。當然，結論的前提是f(x)是二階可導的，如果二階導數都不存在，上面的方法自然就不能用來判斷極值點了。

而在機器學習中，我們考慮的樣本的特征有很多，不止一個，因此我們所處理的函數一般是多元的(多個自變量)。

比如 logL 是關於 w 的函數，而 w=[w₁，w₂] 是一個向量，logL 關於w求偏導數時，其實質就是對 w 個的每一個分量w_i 求偏導數。

上面的就是：logL 關於w的偏導數，又稱為梯度。從公式中可看出：logL是一個實數，它是一個標量--我們的目標也是尋找最大的logL，而梯度是一個向量。

是不是想到了梯度方法？沒錯，梯度下降方法就是用到了梯度的一個性質：

這里不討論梯度的一些理論，而是在梯度的基礎上，再對w^T求導，就得到了一個矩陣，如下所示：

這個矩陣就是黑塞矩陣，而 logL 在 w 點是否取極值就由這個黑塞矩陣的性質來決定。

由前面的公式：，再對w^T求導，得出：

因此，對於函數logL而言，它的黑塞矩陣是：F(w)=(-1/σ²)X^T*X

要想使得在w處logL取極大值，則黑塞矩陣：F(w)=(-1/σ²)X^T*X < 0 。也即：X^T*X > 0，也就是判斷矩陣X^T*X是正定矩陣。

得到X^T*X是一個對稱矩陣。判斷對稱矩陣是正定矩陣的定理有：

當一個矩陣是對稱矩陣時，根據上面的定理判斷它的正定性，是很方便的。這也是為什么將一般矩陣轉換成對稱矩陣來處理的原因。

這里采用第二種方式，來證明 X^T*X 正定矩陣，由於它是2*2矩陣，故一共只有兩個順序主子序。

X^T*X 的一階順序主子式為N，N>0 顯然成立。

X^T*X 的二階順序主子式為：

這里從概率論中隨機變量的方差角度出發來證明

將上式除以N的平方，得到：

再根據方差DX的定義，DX=E(X-EX)²是大於0的。故下面等式成立。

從而證明了二階主子式也大於0。故對稱矩陣X^T*X是正定矩陣。

因此，對於一階偏導數等於0的點w^*而言，它的黑塞矩陣總是正定的。因而滿足“極值定理”成立的條件。故w^*是一個極大值點。

參考文獻：

原文：http://www.cnblogs.com/hapjin/p/6633471.html

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用最大似然法來求解線性模型（2）-為什么是最大化似然函數？使用最大似然法來求解線性模型（3）-求解似然函數使用最大似然法來求解線性模型（1）最大似然估計與期望最大化（EM）算法線性回歸——最大似然函數 [機器學習]SVM---硬間隔最大化數學原理最大似然估計法最大似然函數最大似然函數最大似然函數估計