

回歸是確定因變量和一組自變量之間的關系的過程。線性模型形式簡單、易於建模,但卻蘊含着機器學習中一些重要的基本思想。本文會通過EXCEL構建一個多元線性回歸模型,來預測廣告投入對銷售的影響。本文的主要內容包括:
-
線性回歸的基本概念 -
回歸模型的重要參數 -
多元線性回歸模型案例 -
誰發明了最小二乘法
線性回歸的基本概念
給定由d個屬性描述示例x=(x1;x2;...;xd),其中xi是x在第i個屬性上的取值,線性模型試圖學得一個通過屬性的線性組合來進行預測的函數,即
f(x)=w1x1+w2x2+...+wdxd+b
其中,b為常數項,w1,w2..wd為偏回歸系數
上述的公式中w與b是未知的,那么該如何求解w與b呢?通過均方誤差來進行求解,即最小二乘法,在線性模型中最小二乘法就是試圖找到一條直線,使所有樣本到直線的歐式距離之和最小。
回歸模型的重要參數
-
R^2判定系數
R平方即R的平方,又可以叫判定系數、擬合優度,取值范圍是[0,1],R平方值越大,表示模型擬合的越好。一般大於70%表示擬合較好,60%以下的就需要修正模型了
-
調整的R^2判定系數
這個值是用來修正因自變量個數增加而導致模型擬合效果過高的情況,多用於衡量多重線性回歸。
-
F值
Significance F是回歸方程總體的顯著性檢驗,F檢驗主要是檢驗因變量與自變量之間的線性關系是否顯著,用線性模型來描述他們之間的關系是否恰當,越小越顯著。
-
殘差
殘差是實際值與預測值之間的差,殘差圖用於回歸診斷,回歸模型在理想條件下的殘差圖是服從正態分布的。
-
P值
用來檢驗回歸方程系數的顯著性,一般以此來衡量檢驗結果是否具有顯著性,如果P值>0.05,則結果不具有顯著的統計學意義,如果0.01<P值<0.05,則結果具有顯著的統計學意義,如果P<=0.01,則結果具有極其顯著的統計學意義。
多元線性回歸模型案例
構建模型
假設有如下的廣告投入與銷售收入的數據,[電視渠道,地鐵渠道,搜索渠道, 銷售額]。該表顯示了在不同渠道廣告投入與銷售額之間的關系。具體如下表:
電視渠道 | 地鐵渠道 | 搜索渠道 | 銷售額 |
---|---|---|---|
230.1 | 37.8 | 69.2 | 22.1 |
44.5 | 39.3 | 45.1 | 10.4 |
17.2 | 45.9 | 69.3 | 12 |
151.5 | 41.3 | 58.5 | 16.5 |
180.8 | 10.8 | 58.4 | 17.9 |
8.7 | 48.9 | 75 | 7.2 |
57.5 | 32.8 | 23.5 | 11.8 |
120.2 | 19.6 | 11.6 | 13.2 |
8.6 | 2.1 | 1 | 4.8 |
上述的數據有多個變量,我們先簡化一下,假設只有兩個變量,比如查找電視渠道廣告與銷售額之間的關系。最直接的辦法就是繪制一個散點圖,通過散點圖觀察兩個變量之間是否有相關關系。
假設具有相關關系,那么該如何量化呢,同樣很簡單,只需要繪制一條最適合散點圖中顯示的所有點的直線,該直線方程式就是兩個變量之間的關系,這就是回歸的基本思想,即通過使用函數擬合所有點來量化變量之間的關系。
上面描述的示例成為簡單線性回歸,它涉及一個自變量和一個因變量。我們可以將相同的回歸概念擴展到多個自變量,稱之為多元線性回歸。如上表的數據,存在3個因變量,雖然無法在2維平面上可視化他們之間的關系,但是線性回歸的概念仍然可以用於確定這些點的最佳擬合函數
下面將使用EXCEL進行多元線性回歸分析
-
首先添加數據分析工具庫
默認情況下,Data Analysis ToolPak不可用,您需要單獨激活該加載項。要激活,請轉到文件->選項->加載項,然后激活分析工具庫。激活加載項后,該加載項應顯示在工具欄的“ *數據”*選項卡下。
-
執行回歸分析
選擇回歸之后,確定之后,再選擇數據集,點擊確定
模型分析
上述會構建一個多元線性回歸模型,具體分析如下:
上面第三張表,第一列就是系數。此列提供了多元線性回歸方程式中每個變量的系數值。
銷售額= 0.0544 *(電視渠道)+ 0.1070 *(地鐵渠道)+ 0.0003 *(搜索渠道)+ 4.6251
預測
預測模型是通過為自變量提供值來預測因變量值的過程。上述的多元線性回歸方程是預測模型函數,如果我們輸入自變量的值,則可以得到銷售額的預測值。
例如,如果要預測以下廣告支出組合的銷售收入,
電視渠道= 100
地鐵渠道= 200
搜索渠道= 500
將值輸入多元線性回歸方程式。這將為您帶來31.6377的銷售收入,這是預期的收入。
誰發明了最小二乘法
1801年,意大利天文學家皮亞齊發現了1號小行星“谷神星”,但在跟蹤觀測了40天后,因谷神星轉至太陽背后,皮亞齊失去了谷神星的位置。許多天文學家試圖重新找到谷神星,但都徒勞無獲。這引起了德國數學家高斯的注意,他發明了一種方法,根據皮亞齊的觀測數據計算出了谷神星的軌道,后來德國天文學家奧博斯在高斯語言的時間和星空領域重新找到了谷神星。1809年,高斯在他的著作《天體運動論》中發表了這種方法,即最小二乘法。
1805年,在橢圓積分、數論和幾何方面都有重大貢獻的法國數學家勒讓德發表了《計算彗星軌道的新方法》,其附錄中描述了最小二乘法,勒讓德是法國18-19世紀數學界的三駕馬車之一,早已是法國科學院院士。但勒讓德的數中沒有涉及最小二乘法的誤差分析,高斯在1809年的著作中包括了這方面的內容,這對最小二乘法用於數理統計、乃至今天的機器學習有着極為重要的意義。由於高斯的這一重大發現,以及他聲稱自己在1799年就已經開始用這個方法,因此很多人將最小二乘法的發明優先權歸之為高斯。當時這兩位大數學家發生了著名的優先權之爭,此后有許多數學史家專門進行研究,但至今也沒弄清楚到底是誰最先發明了最小二乘法。



本文分享自微信公眾號 - 大數據技術與數倉(gh_95306769522d)。
如有侵權,請聯系 support@oschina.cn 刪除。
本文參與“OSC源創計划”,歡迎正在閱讀的你也加入,一起分享。