- SPSS自動線性建模
- 自動線性建模,是在最經常使用的一般線性模型基礎上加以改進,讓用戶輸入最少的參數而自動建立線性模型的一個功能。
- 剛好市場部提供了一個廣告效果預測需求,現在市場部已制定了6月1日至7日廣告投放計划,希望通過建立線性
- 回歸模型,預測6月1日至7日的購買用戶數有多少。我們手中已有1~5月的廣告投放效果數據,主要字段有
- “廣告費用”、“廣告投放渠道數”、“購買用戶數”,就以此需求為例,在SPSS中進行自動線性回歸分析。
- 1.1-實驗步驟:
- (1)SPSS中【分析】-【回歸】-【自動線性建模】
- (2)將“購買用戶數”變量,從【預測變量(輸入)】框移至【目標】框中,將“日期”變量,從【預測變量(輸入)】
- 框移至【字段】框中。
- (3)單擊【模型選項】卡,勾選【將預測值保存到數據集】復選框。
-
圖1-1 自動線性建模參數設置
- 1.2 模型結果解讀
- 現在看看輸出結果,和其他SPSS輸出結果不同,自動線性回歸的結果是以可視化報表方式呈現的。
- 2.1 模型摘要
-
圖 2-1 模型摘要
-
- 第一張圖為模型摘要,圖中用進度條圖來展現模型擬合的效果。它類似於普通線性回歸中的R^2(決定系數),
- 一般模型准確度大於70%就算擬合不錯,60%以下就需要修正模型,可以通過增加或刪除一些自變量后再次
- 建模進行修正,這個模型准確度達到了94.8%,效果不錯。
- 2.2自動准備數據
-
圖 2-2
- 第二張圖是建模的自動准備數據過程信息,比如各個變量的角色,對其進入模型之前都做了哪些處理操作,
- 常見的預處理就是離群值、缺失值等處理,只有勾選【自動准備數據】復選框,SPSS就會自動進行處理。
- 2.3 預測變量重要性圖
-
圖2-3 預測變量重要性圖
- 第三張圖為預測變量重要性圖,如圖6-7所示,用條形圖的方式給出了模型中每個自變量的重要性,按對
- 因變量影響強度的大小降序排列,重要性是相對值,因此顯示的所有自變量的重要性總和為1,其中自變量
- 的重要性與模型精度無關。
- 從圖中可以看出,“廣告費用”變量的重要性最大,而“廣告投放渠道數”變量的重要性最小。
- 2.4 預測-實測散點圖
-
圖2-4 預測-實測散點圖
- 第四張圖為預測-實測散點圖,也就是預測值和實際因變量值繪制的散點圖,橫軸為實際因變量值,
- 縱軸為預測值。它用於考察預測效果,如果效果好,數據點應該是在一條45°線上分布,如圖,預測值與實際因變量值較為接近,預測效果好。
- 2.5 殘差圖
-
圖2-5 殘差圖
-
- 殘差是指實際值與預測值之間的差,殘差圖用於回歸診斷,也就是用來判斷當前模型是否滿足回歸模型的假設:
- 回歸 模型在理想條件下的殘差圖是 服從正態分布的,也就是說,圖中的殘差直方圖和正態分布曲線是一致的。
- 如圖,殘差直方圖和正態分布曲線一致,可以得出殘差圖是接近正態分布的結論,滿足回歸模型的是假設。
- 2.6 離群值
圖 2-6 離群值
- 第六張圖是強影響點(離群值)的診斷,SPSS會計算出庫克距離,采用表格的方式輸出了強影響點個案ID、因變量及
- 相應的庫克距離,庫克距離越大的個案對回歸擬合影響的程度越大,此類個案可能會導致模型准確度下降。
- 2.7 回歸效果圖
-
圖 2-7 回歸效果圖
- 第七張圖為回歸效果圖,用於展現及比較各個自變量對因變量的重要性。每個顯著的連續變量均會作為一個模型項,
- 並對應一條線條,如果有顯著的分類變量納入模型 ,那么模型將分類變量的每一種顯著的類別分別作為一個模型項,
- 並分別對應一條線條。
- 線條上下順序是按照自變量的重要性大小降序排列的,由此可以判斷各個自變量的重要性。
- 線條粗細則表示顯著性是水平,顯著性水平越高其線條越粗。
- 可以看出,“廣告費用”這個自變量對購買用戶數的影響最大,重要性為0.97。
- 2.8 回歸系數圖
-
圖2-8 回歸系數圖
- 回歸系數圖,是這個模型中最重要的一張圖,是回歸效果圖的細化,增加了截距、回歸系數等信息,用顏色區分
- 回歸系數的正負,藍色代表正數,橙色代表負數。同樣,線條順序是按照重要性大小降序排列的,線條粗細表示
- 回歸系數的顯著性水平。
- 通過 回歸系數表,我們可以清晰地看到 模型的自變量及對應的回歸系數、顯著性檢驗結果、重要性,
- 每個自變量的顯著性水平都小於0.01,說明每個自變量的回歸系數具有極其顯著的統計學意義。
- 2.9 均值線圖
-
圖 2-9 均值線圖
- 第九張圖是因變量與各個自變量繪制的均值,用直觀地圖形方式幫助我們研究因變量與各個自變量之間的關系。
- 不顯著的自變量不會生成對應的均值線圖。如圖,“廣告費用 ”與“購買用戶數”之間存在着明顯的線性關系。
- 2.10 模型構建摘要
-
圖2-10 模型構建摘要表
- 第十張圖為模型構建摘要表,用於輸出模型構建過程信息,可以看到模型的信息准則值(AICc)是從左到右依次遞減,
- 數值越小,表示模型效果好,也就是說,隨着自變量逐漸被選擇進入模型,使得模型擬合效果越來越好。
- 3. 模型預測
-
圖3-1 數據預測值輸出結果
- 在參數設置中,我們勾選了【將預測值保存到數據集】,SPSS已經在數據集中最后一列增加了一個新變量:預測值。
- 如圖3-1,數據集中最后一列就是預測值,這樣就可以根據6月1日至7日廣告投放計划,預測得到6月1日至7日
- 的購買用戶數。