實驗10-SPSS-自動線性建模


  •  SPSS自動線性建模

  • 自動線性建模,是在最經常使用的一般線性模型基礎上加以改進,讓用戶輸入最少的參數而自動建立線性模型的一個功能。

  • 剛好市場部提供了一個廣告效果預測需求,現在市場部已制定了6月1日至7日廣告投放計划,希望通過建立線性
  • 回歸模型,預測6月1日至7日的購買用戶數有多少。我們手中已有1~5月的廣告投放效果數據,主要字段有
  • “廣告費用”、“廣告投放渠道數”、“購買用戶數”,就以此需求為例,在SPSS中進行自動線性回歸分析。
  • 1.1-實驗步驟:
  • (1)SPSS中【分析】-【回歸】-【自動線性建模】
  • (2)將“購買用戶數”變量,從【預測變量(輸入)】框移至【目標】框中,將“日期”變量,從【預測變量(輸入)】
  • 框移至【字段】框中。
  • (3)單擊【模型選項】卡,勾選【將預測值保存到數據集】復選框。
  •                                 圖1-1 自動線性建模參數設置
  • 1.2 模型結果解讀
  • 現在看看輸出結果,和其他SPSS輸出結果不同,自動線性回歸的結果是以可視化報表方式呈現的。
  • 2.1 模型摘要 


  •                                    圖 2-1 模型摘要

  • 第一張圖為模型摘要,圖中用進度條圖來展現模型擬合的效果。它類似於普通線性回歸中的R^2(決定系數),
  • 一般模型准確度大於70%就算擬合不錯,60%以下就需要修正模型,可以通過增加或刪除一些自變量后再次
  • 建模進行修正,這個模型准確度達到了94.8%,效果不錯。

  • 2.2自動准備數據


  •                                      圖 2-2
  • 第二張圖是建模的自動准備數據過程信息,比如各個變量的角色,對其進入模型之前都做了哪些處理操作,
  • 常見的預處理就是離群值、缺失值等處理,只有勾選【自動准備數據】復選框,SPSS就會自動進行處理。

  • 2.3 預測變量重要性圖

  •                                     圖2-3 預測變量重要性圖
  • 第三張圖為預測變量重要性圖,如圖6-7所示,用條形圖的方式給出了模型中每個自變量的重要性,按對
  • 因變量影響強度的大小降序排列,重要性是相對值,因此顯示的所有自變量的重要性總和為1,其中自變量
  • 的重要性與模型精度無關。

  • 從圖中可以看出,“廣告費用”變量的重要性最大,而“廣告投放渠道數”變量的重要性最小。

  • 2.4 預測-實測散點圖
  •                             圖2-4 預測-實測散點圖
  • 第四張圖為預測-實測散點圖,也就是預測值和實際因變量值繪制的散點圖,橫軸為實際因變量值,
  • 縱軸為預測值。它用於考察預測效果,如果效果好,數據點應該是在一條45°線上分布,如圖,預測值與實際因變量值較為接近,預測效果好。

  • 2.5 殘差圖
  •                                圖2-5 殘差圖

  • 殘差是指實際值與預測值之間的差,殘差圖用於回歸診斷,也就是用來判斷當前模型是否滿足回歸模型的假設:
  • 回歸 模型在理想條件下的殘差圖是 服從正態分布的,也就是說,圖中的殘差直方圖和正態分布曲線是一致的。
  • 如圖,殘差直方圖和正態分布曲線一致,可以得出殘差圖是接近正態分布的結論,滿足回歸模型的是假設。

  • 2.6 離群值
  •                                 圖 2-6 離群值
  • 第六張圖是強影響點(離群值)的診斷,SPSS會計算出庫克距離,采用表格的方式輸出了強影響點個案ID、因變量及
  • 相應的庫克距離,庫克距離越大的個案對回歸擬合影響的程度越大,此類個案可能會導致模型准確度下降。

  • 2.7 回歸效果圖

  •                           圖 2-7 回歸效果圖
  • 第七張圖為回歸效果圖,用於展現及比較各個自變量對因變量的重要性。每個顯著的連續變量均會作為一個模型項,
  • 並對應一條線條,如果有顯著的分類變量納入模型 ,那么模型將分類變量的每一種顯著的類別分別作為一個模型項,
  • 並分別對應一條線條。
  • 線條上下順序是按照自變量的重要性大小降序排列的,由此可以判斷各個自變量的重要性。
  • 線條粗細則表示顯著性是水平,顯著性水平越高其線條越粗。
  • 可以看出,“廣告費用”這個自變量對購買用戶數的影響最大,重要性為0.97。

  • 2.8 回歸系數圖
  •                                圖2-8 回歸系數圖
  •                                     圖2-8 回歸系數表
  • 回歸系數圖,是這個模型中最重要的一張圖,是回歸效果圖的細化,增加了截距、回歸系數等信息,用顏色區分
  • 回歸系數的正負,藍色代表正數,橙色代表負數。同樣,線條順序是按照重要性大小降序排列的,線條粗細表示
  • 回歸系數的顯著性水平。
  • 通過 回歸系數表,我們可以清晰地看到 模型的自變量及對應的回歸系數、顯著性檢驗結果、重要性,
  • 每個自變量的顯著性水平都小於0.01,說明每個自變量的回歸系數具有極其顯著的統計學意義。

  • 2.9 均值線圖
  •                           圖 2-9 均值線圖
  • 第九張圖是因變量與各個自變量繪制的均值,用直觀地圖形方式幫助我們研究因變量與各個自變量之間的關系。
  • 不顯著的自變量不會生成對應的均值線圖。如圖,“廣告費用 ”與“購買用戶數”之間存在着明顯的線性關系。

  • 2.10 模型構建摘要
  •                          圖2-10 模型構建摘要表
  • 第十張圖為模型構建摘要表,用於輸出模型構建過程信息,可以看到模型的信息准則值(AICc)是從左到右依次遞減,
  • 數值越小,表示模型效果好,也就是說,隨着自變量逐漸被選擇進入模型,使得模型擬合效果越來越好。

  • 3. 模型預測

  •                         圖3-1 數據預測值輸出結果
  • 在參數設置中,我們勾選了【將預測值保存到數據集】,SPSS已經在數據集中最后一列增加了一個新變量:預測值。
  • 如圖3-1,數據集中最后一列就是預測值,這樣就可以根據6月1日至7日廣告投放計划,預測得到6月1日至7日
  • 的購買用戶數。






免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM