一、線性回歸
在統計學中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。這種函數是一個或多個稱為回歸系數的模型參數的線性組合。
回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。
下面我們來舉例何為一元線性回歸分析,圖1為某地區的房屋面積(feet)與價格($)的一個數據集,在該數據集中,只有一個自變量面積(feet),和一個因變量價格($),所以我們可以將數據集呈現在二維空間上,如圖2所示。利用該數據集,我們的目的是訓練一個線性方程,無限逼近所有數據點,然后利用該方程與給定的某一自變量(本例中為面積),可以預測因變量(本例中為房價)。本例中,訓練所得的線性方程如圖3所示。
圖1、房價與面積對應數據集
圖2、二維空間上的房價與面積對應圖
圖3、線性逼近
同時,分析得到的線性方程為:
接下來還是該案例,舉一個多元線性回歸的例子。如果增添了一個自變量:房間數,那么數據集可以如下所示:
圖4、房價與面積、房間數對應數據集
那么,分析得到的線性方程應如下所示:
因此,無論是一元線性方程還是多元線性方程,可統一寫成如下的格式:
上式中x0=1,而求線性方程則演變成了求方程的參數ΘT。
線性回歸假設特征和結果滿足線性關系。其實線性關系的表達能力非常強大,每個特征對結果的影響強弱可以有前面的參數體現,而且每個特征變量可以首先映射到一個函數,然后再參與線性計算,這樣就可以表達特征與結果之間的非線性關系。
二、真實值、預測值、誤差:
對誤差的深入理解:
[假設]:誤差 ε 是獨立同分布的,並且服從均值為0方差為θ^2的高斯分布,
誤差特點:
1.誤差指的是實際值與預測值之間的差值
2.獨立:張三和李四一起來貸款,他倆沒關系。
3.同分布:張三和李四都是我們張三和李四都來的是我們假定的這家銀行來貸款
4.高斯分布:銀行可能會多貸款,也可能少貸款,但是絕大多數情況下,這個貸款的差額的浮動不會太大(這里所說的的多貸款,少貸款是銀行實際貸款和預測貸款之間的差別)
下面展示高斯分布(正態分布)的圖像:
根據圖型對誤差的深入理解: 高斯分布的積分為1,所以可以把閉區間的面積看作概率,中間區域的面積最大,說明值落在中間的概率大,由圖可知,有大概率的點是落在x=0附近的,高斯分布的縱坐標無實際意義,縱坐標的值與方差θ的平方有關,θ越大,表示樣本的震盪幅度越大(不會密集的分布在0附近),那么圖像就越矮,縱坐標越小。
三、似然函數
目的:計算出什么樣的參數θ和我們的數據(x,y)組合之后,能滿足我們的真實值(根據數據來猜測結果)
形象理解:比如說我們擲硬幣,擲了十次,結果是九次正面朝上,一次反面朝上,那么認為下一次正面朝上的概率θ就是90%;
似然函數就是用結果(或樣本)(9正,1負的數據)來推算參數(weight權重、概率),也就是說通過參數θ得到的預測的算法,能夠盡可能地擬合樣本數據(已知結果),從而最大化的使得預測結果更偏向於真實數據。
似然函數說白了就是結果導向,由已知結果來推算出預測參數θ,因為結果已經發生了,那么概率p(y|x;θ)肯定是取最大的!
這里的似然函數是怎么來的:
(1)式是已知的,(2)式我們假設的,那么將(1)代入(2),就可以得到一個新的關於參數θ的函數,這就是一個似然函數。
注:前面的括號里面的參數,經查閱資料,分號前面的表示已知量、確定值,分號后面的是自變量,所以似然函數就是一個關於θ的函數,所以可以簡寫成L(θ)
但是似然函數的累乘的,乘法比較難算,我們可以引入對數,進行累加:
四、最小二乘法
根據上面的對數似然函數,我們可以進行化簡從而得到最小二乘法:
五、計算最小二乘法(得到參數取何值時候,真實值和預測值越接近)
六:評估方法(對我們模擬的模型進行評估)
總結:以上就是通過線性回歸思想建立最小二乘法模型