“回歸分析”——數據分析、數據挖掘


回歸分析概念
 
      回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。通過這種方法可以確定,許多領域中各個因素(數據)之間的關系,從而可以通過其用來預測,分析數據。 
  方差齊性、線性關系、效應累加、變量無測量誤差、變量服從多元正態分布、觀察獨立、模型完整(沒有包含不該進入的變量、也沒有漏掉應該進入的變量)、誤差項獨立且服從(0,1)正態分布。 
  現實數據常常不能完全符合上述假定。因此,統計學家研究出許多的回歸模型來解決線性回歸模型假定過程的約束。 
  研究一個或多個隨機變量Y1 ,Y2 ,…,Yi與另一些變量X1、X2,…,Xk之間的關系的統計方法。又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變量,X1、X2,…,Xk為自變量。回歸分析是一類數學模型,特別當因變量和自變量為線性關系時,它是一種特殊的線性模型。最簡單的情形是一個自變量和一個因變量,且它們大體上有線性關系,這叫一元線性回歸,即模型為Y=a+bX+ε,這里X是自變量,Y是因變量,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大於0)σ2與X的值無關。若進一步假定隨機誤差遵從正態分布,就叫做正態線性模型。一般的情形,差有k個自變量和一個因變量,因變量的值可以分解為兩部分:一部分是由自變量的影響,即表示為自變量的函數,其中函數形式已知,但含一些未知參數;另一部分是由於其他未被考慮的因素和隨機性的影響,即隨機誤差。當函數形式為未知參數的線性函數時,稱線性回歸分析模型;當函數形式為未知參數的非線性函數時,稱為非線性回歸分析模型。當自變量的個數大於1時稱為多元回歸,當因變量個數大於1時稱為多重回歸。 
  回歸分析的主要內容為:①從一組數據出發確定某些變量之間的定量關系式,即建立數學模型並估計其中的未知參數。估計參數的常用方法是最小二乘法。②對這些關系式的可信程度進行檢驗。③在許多自變量共同影響着一個因變量的關系中,判斷哪個(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通常用逐步回歸向前回歸向后回歸等方法。④利用所求的關系式對某一生產過程進行預測或控制。回歸分析的應用是非常廣泛的,統計軟件包使各種回歸方法計算十分方便。

轉載:http://blog.sina.com.cn/s/blog_77ca69890101a2d2.html

 

回歸分析應用

      相關分析研究的是現象之間是否相關、相關的方向和密切程度,一般不區別自變量或因變量。而回歸分析則要分析現象之間相關的具體形式,確定其因果關系,並用數學模型來表現其具體關系。比如說,從相關分析中我們可以得知“質量”和“用戶滿意度”變量密切相關,但是這兩個變量之間到底是哪個變量受哪個變量的影響,影響程度如何,則需要通過回歸分析方法來確定。 
  一般來說,回歸分析是通過規定因變量和自變量來確定變量之間的因果關系,建立回歸模型,並根據實測數據來求解模型的各個參數,然后評價回歸模型是否能夠很好的擬合實測數據;如果能夠很好的擬合,則可以根據自變量作進一步預測。 
  例如,如果要研究質量和用戶滿意度之間的因果關系,從實踐意義上講,產品質量會影響用戶的滿意情況,因此設用戶滿意度為因變量,記為Y;質量為自變量,記為X。根據圖8-3的散點圖,可以建立下面的線性關系: 
  Y=A+BX+§ 
  式中:A和B為待定參數,A為回歸直線的截距;B為回歸直線的斜率,表示X變化一個單位時,Y的平均變化情況;§為依賴於用戶滿意度的隨機誤差項。 
  在SPSS軟件里可以很容易地實現線性回歸,回歸方程如下: 
  y=0.857+0.836x 
  回歸直線在y軸上的截距為0.857、斜率0.836,即質量每提高一分,用戶滿意度平均上升0.836分;或者說質量每提高1分對用戶滿意度的貢獻是0.836分。 

  上面所示的例子是簡單的一個自變量的線性回歸問題,在數據分析的時候,也可以將此推廣到多個自變量的多元回歸,具體的回歸過程和意義請參考相關的統計學書籍。此外,在SPSS的結果輸出里,還可以匯報R2,F檢驗值和T檢驗值。R2又稱為方程的確定性系數(coefficient of determination),表示方程中變量X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強。通常將R2乘以100%來表示回歸方程解釋Y變化的百分比。F檢驗是通過方差分析表輸出的,通過顯著性水平(significant level)檢驗回歸方程的線性關系是否顯著。一般來說,顯著性水平在0.05以下,均有意義。當F檢驗通過時,意味着方程中至少有一個回歸系數是顯著的,但是並不一定所有的回歸系數都是顯著的,這樣就需要通過T檢驗來驗證回歸系數的顯著性。同樣地,T檢驗可以通過顯著性水平或查表來確定。在上面所示的例子中,各參數的意義如表8-2所示。 
  

表8-2 線性回歸方程檢驗

指標     顯著性水平                意義 
R        0.89                     “質量”解釋了89%的“用戶滿意度”的變化程度 
F        276.82 0.001               回歸方程的線性關系顯著 
T       16.64 0.001                 回歸方程的系數顯著 

  示例 SIM手機用戶滿意度與相關變量線性回歸分析 
  我們以SIM手機的用戶滿意度與相關變量的線性回歸分析為例,來進一步說明線性回歸的應用。從實踐意義講上,手機的用戶滿意度應該與產品的質量、價格和形象有關,因此我們以“用戶滿意度”為因變量,“質量”、“形象”和“價格”為自變量,作線性回歸分析。利用SPSS軟件的回歸分析,得到回歸方程如下: 
  

用戶滿意度=0.008×形象+0.645×質量+0.221×價格 
  

      對於SIM手機來說,質量對其用戶滿意度的貢獻比較大,質量每提高1分,用戶滿意度將提高0.645分;其次是價格,用戶對價格的評價每提高1分,其滿意度將提高0.221分;而形象對產品用戶滿意度的貢獻相對較小,形象每提高1分,用戶滿意度僅提高0.008分。 
  

方程各檢驗指標及含義如下: 
  

        指標              顯著性水平                      意義 
         R                2 0.89                      “質量”和“形象”解釋了89%的“用戶滿意度”的變化程度 
         F                248.53 0.001                  回歸方程的線性關系顯著 
         T(形象)        0.00 1.000                  “形象”變量對回歸方程幾乎沒有貢獻 
         T(質量)        13.93 0.001                 “質量”對回歸方程有很大貢獻 
         T(價格)        5.00 0.001                   “價格”對回歸方程有很大貢獻 

  從方程的檢驗指標來看,“形象”對整個回歸方程的貢獻不大,應予以刪除。所以重新做“用戶滿意度”與“質量”、“價格”的回歸方程如下: 
  

   用戶滿意度=0.645×質量+0.221×價格 
 

 對於SIM手機來說,質量對其用戶滿意度的貢獻比較大,質量每提高1分,用戶滿意度將提高0.645分;用戶對價格的評價每提高1分,其滿意度將提高0.221分(在本示例中,因為“形象”對方程幾乎沒有貢獻,所以得到的方程與前面的回歸方程系數差不多)。 
 

 方程各檢驗指標及含義如下:


   指標                顯著性水平                   意義 
     R                   0.89                     “質量”和“形象”解釋了89%的“用戶滿意度”的變化程度 
     F                   374.69 0.001              回歸方程的線性關系顯著 
     T (質量)          15.15 0.001               “質量”對回歸方程有很大貢獻

     T(價格)            5.06 0.001             “價格”對回歸方程有很大貢獻

 

 

回歸分析在游戲人氣分析的實踐應用探索

      回歸分析是研究一個變量(因變量)和另一個變量(自變量)關系的統計方法,用最小二乘方法擬合因變量和自變量的回歸模型,把一種不確定的關系的若干變量轉化為有確定關系的方程模型近似分析,並且通過自變量的變化來預測因變來預測因變量的變化趨勢,在回歸分析中兩個變量的地位是不平等的,考察某一個變量的變化是依存於其他變量的變化程度,就是存在因果關系。

今天將利用回歸分析對游戲數據分析的某些指標進行分析探討,有關於回歸分析的一些理論這里不再講解,百度即可。今天針對DAU、PCU、ACU、新登等指標進行回歸分析。一般而言我們可以使用Excel就能做一元回歸分析,Excel做回歸分析有兩種方式:散點圖和回歸分析工具。散點圖通過添加趨勢線可以直觀的顯示自變量和因變量的關系,如果不存在明顯的線性或者曲線關系,就放棄建立回歸模型,趨勢線能夠輸出方程和擬合有度(R-square,該值越接近1,方程擬合越好)。第二種方法采用回歸分析工具,能夠更加詳細的輸出回歸分析指標相關信息,便於更加仔細的進行分析和預測。

      回歸分析分為線性回歸分析和非線性回歸分析,首先來看一下線性回歸分析。

      如果我們使用線性回歸分析其實有些前提要考慮:

1)  自變量與因變量的關系,是否是呈直線,是否是一個變量依存於另個變量的變化程度,如剛才所言,變量之間的地位是不平等的。

2)  因變量是否符合正態分布。

3)  因變量數值之間是否獨立。

4)  方差是否齊性。

      一般來說,按照回歸分析工具得出的結果來看,應着重看看殘差(residual)是否是正態、獨立以及方差齊性,殘差就是因變量的實際值與估計值的差值。其實實際應用中,這些理論的條框我們有時候搞不懂,那么我們可以通過其他辦法來看,這就是通過散點圖就能把以上條框搞定。

是否呈現直線關系,通過散點圖就能看出來,如下圖所示,大致呈現直線關系。

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

對於正態分布可以考察殘差的正態概率圖,如果正態概率圖呈現一條直線表示符合正態分布,當然了也可以通過正態性檢驗方法來檢驗一下是否符合正態分布。

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

是否方差齊,可以用殘差的分布來看,即以因變量的預測值為x軸,以殘差為y軸作圖,如果殘差無明顯的分布,表明方差齊性。如果有一定的趨勢,可能存在方差不齊的情況,如下圖隨着x軸的增加殘差的范圍逐漸增大,明顯的方差不齊的情形。

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

對於是否獨立,也可以通過圖形來看, 隨着時間的變化,因變量應該沒有任何趨勢,否則可能表明因變量之間有一定的相關性。還可通過Durbin-Watson法檢驗是否獨立。

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

今天我們將探討DAU與PCU、PCU與ACU、DAU與首登三組的回歸分析。

首先來看DAU與PCU的回歸分析。我們選取一個月的數據,作為分析數據,首先我們來繪制散點圖(這里不具體講解散點圖繪制方法)

DAU與PCU

我們繪制散點圖,並選擇線性趨勢線,得到如下的散點圖:

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

之后我們通過回歸分析工具進行回歸分析結果的匯總來具體解析一下,操作如下:

點擊數據|數據分析,如下所示:

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

找到回歸分析

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

之后確定,並要把進行分析的數據引用單元格選好,殘差和正態分布相關選項全部勾選,如下所示。

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

最后會在新的工作表組生成結果,形式如下所示:

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

表格術語解釋一下:

df=degree of freedom 自由度

SS    Stdev square 方差

MS   Mean square  均方差

F聯合檢驗F值

coefficient回歸系數

standard error標准差

T-stat T檢驗值=回歸系數/標准差

P-value P值,T檢驗值查表對應的P概率值

Lower 95%和upper 95%置信度為95%的下限和上限區間

其實對於建立的回歸模型,我們還要進行方程的統計檢驗,檢驗的原假設回歸系數=0,如果拒絕原假設(p小於置信系數),則回歸系數不為0,回歸系數或者回歸方程顯著。

回歸工具為我們提供了三張圖,分別是殘差圖、線性擬合圖和正態概率圖。

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

如下圖為通過回歸分析工具得出的回歸分析匯總結果:

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

可以看到R-square為0.68,也就說68%的數據符合這個方程,擬合方程的觀測量為31個,計算下來就是有21個數據項是符合該方程的,F統計量在原假設成立前提下概率為2.55944e-06遠遠小於顯著水平0.05,所以方程顯著。但是除了做回歸方程和回歸系數的顯著性檢驗以外,還需要對回歸殘差做檢驗,因為回歸方程必須滿足均值為0,獨立,正態分布,否則最小二乘估計對參數做估計就失效。如下為殘差圖,基本上是零散的分布。基本上可以說殘差獨立分布,方程參數估計有效。

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

此外關於正態分布,可以參考以下的正態概率圖來分析:

鈥溁毓櫸治鱺濃斺斒莘治觥⑹萃誥

通過以上的回歸分析,我們看到每日的DAU確實對於PCU的拉動起到顯著作用和影響,但由於擬合方程系數僅為0.68,說明在DAU這個顯著影響因素之外還有其他的影響因素,剛才我們計算了31個觀測值,有21個符合該方程,10個觀測值不符合該方程,其實這個觀測值可能周末效應作用,影響了系數的高低。

剩下的PCU與ACU、DAU與新登的回歸分析大家自己參照這個過程可以進行,分析需要警惕一點的是不同的游戲,反映出的結論不一樣,就如同有的游戲有周末化學反應,而有的游戲就沒有,鄙人接觸過這種游戲,因此在做回歸分析時,要注意這些理論之外的事項,對於分析會有很大的幫助。

p.s.其實SPSS也可以做回歸分析,效果比Excel還好一些,不過還是建議大家先把簡單的搞好,搞明白,對於DAU、PCU、ACU、新登的回歸分析,也可以幫助預測未來數據,回歸分析是很復雜的一類分析,雖然在使用操作很簡單,不過在其背后有很多值得學習的地方值得思考的地方,還需要多多練習和思考,做數據分析在某個角度和搞科研是一樣的,要有嚴謹的態度和研究分析要求,比如線性回歸的使用必須要遵循幾個條件,這是非常重要的,也是必須的,如果不確立好這些,做出來的東西也是錯誤的,就像本來數據是三角形的,你非要用一個圓形的理論和模型來作為分析方法,根本就是錯誤的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM