作者|RAM DEWANI
編譯|VK
來源|Analytics Vidhya
概述
-
你可以在Excel中執行建模,只需幾個步驟
-
下面是一個教程,介紹如何在Excel中構建線性回歸模型以及如何解釋結果
介紹
Excel真的能構建預測模型?
這通常是我提起這個話題時的第一反應。當我演示如何利用Excel的靈活性為我們的數據科學和分析項目構建預測模型時,接下來是一個令人懷疑的眼神。
讓我問你一個問題-如果你周圍的商店開始收集客戶數據,他們是否可以采用基於數據的策略來銷售他們的商品?他們能預測自己的銷售額或估計可能銷售的產品數量嗎?

現在你一定想知道,他們究竟將如何建立一個復雜的統計模型來預測這些事情?學習分析或雇佣分析師可能超出了他們的能力范圍。好消息是,他們不需要。
Microsoft Excel為我們提供了一種構建預測模型的能力,而不必編寫復雜的代碼。
我們可以很容易地在MS Excel中建立一個簡單的線性回歸模型,它可以幫助我們在幾個簡單的步驟中執行分析。我們不需要精通Excel或統計學就可以進行預測建模!
在這篇文章中,我將解釋如何在Excel中建立一個線性回歸模型,以及如何對結果進行分析,以便你成為一名分析師!
目錄
-
什么是線性回歸?
-
在Excel中獲取所有重要的Add分析工具包
-
在Excel中實現線性回歸
-
解釋我們預測模型的結果
-
我們如何改進模型?
-
用Excel做預測!
什么是線性回歸?
線性回歸是我們大多數人學習的第一種機器學習技術。它也是業界最常用的監督學習技術。
但什么是線性回歸?
它是一種線性方法,用於統計建模因變量(要預測的變量)和自變量(用於預測的因素)之間的關系。線性回歸給出了這樣一個方程:

這里,Y是因變量,X是自變量,C是系數。系數基本上是根據重要性分配給特征的權重。
最常用的回歸方法是OLS(普通最小二乘法)。它的目標是減少平方和以產生這樣的最佳擬合線:

如果你想了解有關線性回歸的更多信息,請參閱以下資源:
線性回歸基礎:https://courses.analyticsvidhya.com/courses/Fundamentals-of-Regression-Analysis
線性回歸模型中的診斷圖:https://www.analyticsvidhya.com/blog/2013/12/residual-plots-regression-model/
Excel中線性回歸的初學者指南:https://www.analyticsvidhya.com/blog/2017/06/a-comprehensive-guide-for-linear-ridge-and-lasso-regression/
Excel加載項獲取分析工具包
要在Excel中執行回歸分析,首先需要啟用Excel的分析工具包加載項。Excel中的分析工具包是一個插件程序,為統計和工程分析提供數據分析工具。
要將其添加到工作簿中,請執行以下步驟。
步驟1–Excel選項
轉到文件->選項:

步驟2–定位分析工具包
轉到左側面板上的加載項->管理Excel加載項->轉到:

第3步-添加分析工具包
選擇“分析工具包”並按“確定”:

你已在Excel中成功添加分析工具包!你可以通過轉到功能區中的數據欄進行檢查。
讓我們開始用Excel建立我們的預測模型!
在Excel中實現線性回歸
到目前為止,很多東西都是理論上的。現在,讓我們深入了解Excel並進行線性回歸分析!
下面是我們將要處理的問題聲明:
Winden鎮有一家賣鞋的公司。該公司希望通過考慮以下因素來預測每個客戶的銷售情況:客戶收入、離家距離、客戶每周的跑步頻率。

步驟1–選擇回歸
進入數據->數據分析:
轉到數據工具包中的“數據分析”,選擇“回歸”,然后按“確定”:

步驟2–選擇
在這一步中,我們將選擇一些分析所需的選項,例如:
-
輸入y范圍–獨立因子的范圍
-
輸入x范圍-相關因素的范圍
-
輸出范圍–要顯示結果的單元格范圍

其他選項是自由選擇的,你可以根據你的特定目的選擇它們。
按OK,我們最終在Excel中用兩個步驟進行了回歸分析!很簡單!現在我們將在excel中看到回歸分析的結果。
用Excel分析預測模型的結果
實施線性回歸模型是最簡單的部分。現在是我們分析的棘手方面——在Excel中解釋預測模型的結果。
綜上所述,我們有三種產出類型,我們將逐一介紹:
-
回歸統計表
-
方差分析表
-
回歸系數表
-
殘差表
回歸統計表
回歸統計表告訴我們最佳擬合線如何定義自變量和因變量之間的線性關系。兩個最重要的度量是R方和調整R方。
R方統計量是擬合優度的指標,它告訴我們最佳擬合線解釋了多少方差。R方的范圍從0到1。
在我們的例子中,R平方值為0.953,這意味着我們的行能夠解釋95%的方差——這是一個好的跡象。

但是有一個問題-當我們不斷增加更多的變量,我們的R平方值將繼續增加,即使變量可能沒有任何影響。調整R平方解決了這個問題,是一個更可靠的度量。
方差分析表
方差分析代表方差分析。此表將平方和分解為其組成部分,以提供模型內變化的詳細信息。
它包括一個非常重要的指標,顯著性F(或P值),它告訴我們你的模型是否具有統計顯著性。
簡而言之,這意味着我們的結果可能不是由於隨機性,而是因為一個潛在的原因。
p值最常用的閾值是0.05。如果我們得到的值低於這個,就可以了。否則,我們需要選擇另一組自變量。

在我們的例子中,我們的值遠低於0.05的閾值。太棒了,我們現在可以前進了!
回歸系數表
系數表以系數的形式分解回歸線的組成部分。從中我們可以了解很多。
對於Winden鞋業公司來說,似乎每增加一個單位的收入,銷售額就增加0.08,而增加一個單位的店面距離就增加508個銷售額!

running frequency的增加似乎使銷售量減少了24,但我們真的能相信這個特征嗎?
如果你看上面的圖片,你會發現它的p值大於0.5,這意味着它在統計學上不顯著。
我們將在下一節探討如何處理這種情況。
殘差表
殘差表反映了預測值與實際值之間的差異。它由我們的模型預測的值組成:

如何改進我們的模型?
如前所述,變量running frequency的p值大於0.05,因此讓我們從分析中移除該變量來檢查結果。
我們將遵循上述所有步驟,但不包括running frequency列:

我們注意到調整后的R平方的值從0.920略微提高到0.929!
用Excel做預測!
我們已經准備好回歸分析了,現在該怎么辦?讓我們看看。
你的一位老顧客,名叫亞歷山德,走進來,我們想預測他的銷售額。我們可以簡單地從線性回歸模型的數據中插入數字,我們很好去!
Aleksander有4萬的收入,住在離商店2公里的地方。估計銷售額是多少?
方程變成:

在這里,我們的模型估計,亞歷山德先生將支付4218購買他的新鞋!這就是簡單地在Microsoft Excel中進行線性回歸的能力。
結尾
在本文中,我們學習了如何在Excel中建立線性回歸模型以及如何解釋結果。我希望這本教程能幫助你成為一個更好的分析師或數據科學家。
分析工具包包含許多其他Excel分析選項。你可以在日常生活中嘗試很多其他的統計分析!
原文鏈接:https://www.analyticsvidhya.com/blog/2020/06/predictive-modeling-excel-linear-regression/
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/
