(轉)線性回歸數學推導(詳細過程)


線性回歸的公式

從零開始機器學習001-線性回歸數學推導

線性回歸的數學推導主要涉及到以下幾個知識點。

1. 利用矩陣的知識對線性公式進行整合

2. 誤差項的分析

3. 似然函數的理解

4. 矩陣求偏導

5. 線性回歸的最終求解


我們先來看下這個圖

姓名 工資(元) 房屋面積(平方米) 可貸款金額(元)
張三 6000 58 30000
李四 9000 77 55010
王五 11000 89 73542
陸永劍 15000 54 63201

這個是近期比較火的現金貸產品的貸款額度。這個表格表示的是可貸款的金額 與 工資 和 房屋面積之間的關系,其中 工資 和 房屋面積 為 特征,可貸款金額為目標函數值。
那么根據線性函數可得到以下公式。
從零開始機器學習001-線性回歸數學推導
上面的這個式子是當一個模型只有兩個特征(x1,x2)的時候的線性回歸式子。
正常情況下,現金貸中可貸款的額度和用戶的很多特征相關聯,並不只是簡單的這兩個特征。所以我們需要把這個式子進行通用化。
假如有n個特征的話,那么式子就會變成下面的樣子
從零開始機器學習001-線性回歸數學推導
上面的式子是一個多項求和的式子,用機器學習的思想,怎么把這個式子聚合一下呢?
因為機器學習中基本上都是用矩陣的方式來表示參數的,也就是說我們需要把這個多項求和的式子用矩陣的方式表達出來,這樣才方便后續的計算。
從零開始機器學習001-線性回歸數學推導
我們把權重參數和特征參數,都看成是1行n列的矩陣(或者是行向量)。那么就可以根據矩陣乘法的相關知識,把上述多項求和的式子,轉換成矩陣的乘法的表達式。
由此我們就把多項求和化簡稱了
從零開始機器學習001-線性回歸數學推導
這個就是第一步,利用矩陣的知識對線性公式進行整合。
接着我們來看第二步,誤差項的分析
從零開始機器學習001-線性回歸數學推導
式子里面其實並不是只有W*X吧? 還有一個參數b。也就是我們說的偏移量,或者叫做誤差項。
我們先來看下面的這個圖
從零開始機器學習001-線性回歸數學推導
圖中的橫坐標X1 和 X2 分別代表着 兩個特征(工資、房屋平米) 。縱坐標Y代表目標(可貸款的額度)。其中紅點代表的就是實際的目標值(每個人可貸款的額度).而平面上和紅點豎向相交的點代表着我們根據線性回歸模型得到的點。也就是說實際得到的錢和預估的錢之間是有一定誤差的,這個就是誤差項。
因為誤差項是真實值和誤差值之間的一個差距。那么肯定我們希望誤差項越小越好。
從零開始機器學習001-線性回歸數學推導
我們根據實際情況,假設認為這個誤差項是滿足以下幾個條件的。
從零開始機器學習001-線性回歸數學推導
1.獨立:張三和李四一起使用這款產品,可貸款額互不影響
2.同分布:張三和李四是使用的是同一款產品
3.高斯分布:絕大多數的情況下,在一個的空間內浮動不大
下面是高斯分布的圖,忘記的同學們可以回憶下。
從零開始機器學習001-線性回歸數學推導

第三步. 似然函數的理解
由前面兩步,我們已經把線性回歸模型,推導成下面的這個式子了。
從零開始機器學習001-線性回歸數學推導
第二步,已經知道誤差項是符合高斯分布的,所以誤差項的概率值就是下面的式子。
從零開始機器學習001-線性回歸數學推導
再把誤差值帶入到這個式子里面,就得到了下面的式子。
從零開始機器學習001-線性回歸數學推導

誤差項肯定是越小越好了,那么接下來要討論的就是什么樣的參數和特征的組合能夠讓誤差項最小呢? 這里就引入了似然函數的作用。似然函數的作用就是要根據樣本來求什么樣的參數和特征的組成能夠最接近真實值。越接近真實值則誤差越小。
從零開始機器學習001-線性回歸數學推導
似然函數就是求能讓真實值和預測值相等的那個參數的。
從零開始機器學習001-線性回歸數學推導
上面的式子是多個參數的乘積的形式,很難進行計算,所以我們又采用了對數的一個小技巧,把多個數相乘,轉化成多個數相加的形式。
從零開始機器學習001-線性回歸數學推導
根據上面的這種換算關系,我們就把似然函數的式子換算成下面的這個。
(因為似然函數是越大越好,似然函數的值和對數似然函數的值是成正比的,對值求對數,並不會影響到最后求極限的值。所以才敢進行對數處理。)
從零開始機器學習001-線性回歸數學推導
對上面的式子進行整合,得到
從零開始機器學習001-線性回歸數學推導
從零開始機器學習001-線性回歸數學推導
通過上面一系列推導,就把式子轉化為最小二乘法的相關知識了。
這就是在線性回歸中使用似然函數的相關知識。
---【如果想了解更多的數學基礎知識,及機器學習的相關課程,請點擊下面鏈接】
---【從零開始學習機器學習,包含全套的機器學習課程】

接着看下一步:矩陣求偏導
怎么計算最小二乘法的公式的最小值。這里面就要涉及到導數的相關知識了,
求之前,我們根據矩陣的知識,把上面的式子再轉換一下。
從零開始機器學習001-線性回歸數學推導

把這個式子求一下偏導。
從零開始機器學習001-線性回歸數學推導
上面的公式里面還涉及到矩陣轉置的性質。想了解矩陣轉置的性質,請點擊此鏈接【機器學習數學基礎】。

將打開的式子,根據矩陣求導的三個重要公式
從零開始機器學習001-線性回歸數學推導
我們就可以把偏導的值求出來,
從零開始機器學習001-線性回歸數學推導
最終得到結果:
從零開始機器學習001-線性回歸數學推導

X和Y都是已知的,那么得到了最終的參數值。

轉自:
從零開始機器學習001-線性回歸數學推導-12123258-51CTO博客
http://blog.51cto.com/12133258/2051527


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM