一、什么是線性回歸
線性回歸是利用線性的方法,模擬因變量與一個或多個自變量之間的關系。對於模型而言,自變量是輸入值,因變量是模型基於自變量的輸出值,適用於x和y滿足線性關系的數據類型的應用場景。
線性回歸應用於數據分析的場景主要有兩種:
-
驅動力分析:某個因變量指標受多個因素所影響,分析不同因素對因變量驅動力的強弱(驅動力指相關性,不是因果性);
-
預測:自變量與因變量呈線性關系的預測;
模型數學形式:????=????0+????1????1+????2????2+⋯+????????????????
例如要衡量不同的用戶特征對滿意分數的影響程度,轉換成線性模型的結果可能就是:分數=-2.1+0.56*年齡
線性回歸模型分為一元線性回歸與多元線性回歸:區別在於自變量的個數
二、線性系數的計算-最小二乘法
我們知道了模型的公式,那么模型的系數是如何得來呢?我們用最小二乘法來確定模型的系數。最小二乘法,它通過最小化誤差的平方和尋找數據的最佳函數匹配,利用最小二乘法可以求得一條直線,並且使得擬合數據與實際數據之間誤差的平方和為最小。
將上述模型公式簡化成一個四個點的線性回歸模型來具體看:分數=-2.1+0.56*年齡
最小二乘法選取能使模型 誤差平方和= ????1????+ ????2????+ ????3????+ ????4????最小化的直線,生成直線后即可得出模型自變量的系數和截距。
三、決定系數R方(R-squared)與調整R方
R方(適用一元線性回歸)
R方也叫決定系數,它的主要作用是衡量數據中的因變量有多准確可以被某一模型所計算解釋。公式:
離差平方和:代表因變量的波動,即因變量實際值與其平均值之間的差值平方和
誤差平方和:代表因變量實際值與模型擬合值之間的誤差大小
故R方可以解釋因變量波動中,被模型擬合的百分比,即R方可以衡量模型擬合數據的好壞程度;R方的取值范圍<=1,R方越大,模型對數據的擬合程度越好;
使用不同模型擬合自變量與因變量之間關系的R方舉例,
R方=1 模型完美的擬合數據(100%)
R方=0.91 模型在一定程度較好的擬合數據(91%)
R方<0 擬合直線的趨勢與真實因變量相反
調整R方(適用多元線性回歸)
一般的R方會存在一些問題,即把任意新的自變量加入到線性模型中,都可能會提升R方的值,模型會因加入無價值的變量導致R方提升,對最終結果產生誤導。
故在建立多元線性回歸模型時,我們把R方稍稍做一些調整,引進數據量、自變量個數這兩個條件,輔助調整R方的取值,我們把它叫調整R方,調整R方值會因為自變量個數的增加而降低(懲罰),會因為新自變量帶來的有價值信息而增加(獎勵);可以幫助我們篩選出更多有價值的新自變量。
n:數據量大小(行數)->數據量越大,新自變量加入所影響越小;
p:自變量個數->自變量個數增加,調整R方變小,對這個量進行懲罰;
一句話,調整R方不會因為模型新增無價值變量而提升,而R方會因為模型新增無價值變量而提升!通過觀測調整R方可以在后續建模中去重多重共線性的干擾,幫助我們選擇最優自變量組合。
R方/調整R方值區間經驗判斷
-
<0.3->非常弱的模型擬合
-
0.3-0.5->弱的模型擬合
-
0.5-0.7->適度的模型擬合
-
>0.7->較好的模型擬合
四、線性回歸在數據分析中的實戰流程
我們以共享單車服務滿意分數據為案例進行模型實戰,想要去分析不同的特征對滿意分的影響程度,模型過程如下:
聲明:轉自原博主 https://blog.csdn.net/?spm=1010.2135.3001.4477 覺得寫得不錯