SPSS-數據文件的合並與拆分&SPSS預分析


第五章  數據文件的合並與拆分

添加變量

多個數據文件的合並

 

 

 

 變量的合並

 

 

 練習:

1.將帶權重的問卷錄入數據.sav中的權重變量添加到問卷錄入數據(整理后).sav文件中,並盡量保留數據。
操作流程:數據——合並文件——添加變量

 

 

2. a.Sav包括了id號為偶數的5位受訪者的性別、年齡和身高,c.sav則提供了4位受訪者的體重,將
數據c.sav中的變量添加到a.sav中。(a是非活動集,c是活動集)

 

 合並個案

 

 

 查看數據,右鍵單擊,點擊描述統計數據,然后

 

 

 

 

 

 練習:

1.給定兩個數據文件9月3日商品訂購明細.sav和9月4日商品訂購明細.sav,現在需要將兩日的商品訂購明細合並到一個數據集中。
2.將用戶信息.sav中的變量添加到9月3日商品訂購明細.sav中,並保留9月3日商品訂購明細.sav中的全部數據。

多個數據文件的拆分

主要內容:有時需要將一個數據文件分解,比如按照地區分析產品的銷售情況,或者按照性別分析男女生的得分情況。
步驟:數據
---拆分文件
案例文件:分類匯總練習某企業職工信息.sav
注意事項:數據的拆分並沒有將總的文件拆分成幾個分文件,而是在總文件中層次分明地顯示出分文件。

SPSS預分析

SPSS預分析是進行其他統計分析的基礎和前提。

通過基本統計方法的學習,可以對要分析數據的總體特征有比較准確的把握,從而有助於選擇其他更為深入的統計分析方法。
第一章   頻率分析
第二章 探索分析
第三章 相關分析

第一章 頻率分析

連續變量的頻率分析:研究數值型數據
分類變量的頻率分析:研究分類數據/順序型數據

 

分類變量的頻數分析
分析被調查者“所在的城市”和“性別”的頻數分布調研數據.sav

分析被調查者“職業”和“婚姻狀況”的頻數分布調研數據.sav

在輸出文件進行 圖形編輯 雙擊

 

 選着標簽,按首字母順序排列

選着統計按 頻數大小排列

 

 

 

 選着值 是按值標簽排列的  例如 北京-1;上海--2

 

 

 

連續變量的頻數分析

連續變量的統計描述從以下的幾個方面:
集中趨勢:大部分數值集中到某區間的趨勢
離散趨勢:數值向兩邊分散的趨勢
分布形狀(是否對稱,分布曲線的形狀)
分布特征(單、雙峰,有無極端值等)

 

集中趨勢:中位數、眾數、平均值 離散趨勢:全距、方差和標准差、四分位與百分位 分布趨勢:正態分布

 

集中趨勢

 

 

 中位數、眾數

離散趨勢:

全距

定義:全距也稱為極差,是數據的最大值與最小值之間的絕對差。
在相同樣本容量情況下的兩組數據,全距大的一組數據要比全距小的一組數據更為分散。
計算公式:最大值-最小值。

 

 四分位數與百分位數

 

 練習

分析被調查者“周歲年齡”的最大值/最小值/平均值/眾數/中位數/標准差/百分位數
數據:調研數據.sav

 

 
         

 

正態分布描述指標

 標准化的作用:統一量綱

3σ原則為
在正態分布中σ代表標准差,μ代表均值。x=μ即為圖像的對稱軸 3σ原則為 數值分布在(μ-σ,μ+σ)中的概率為0.6827 數值分布在(μ-2σ,μ+2σ)中的概率為0.9545 數值分布在(μ-3σ,μ+3σ)中的概率為0.9973 可以認為,Y 的取值幾乎全部集中在(μ-3σ,μ+3σ)區間內,超出這個范圍的可能性僅占不到0.3%.

標准化Z分數:在(-3,3)區間內

看某個數值型字段是否有異常值

例如:求年齡的標准化操作:

 

 

 

 

 

 年齡異常值:

 

 異常值處理-首先變成缺失值-再替換

 

 

 再做缺失值的替換

 

 

 

 

 偏度和峰度

 

 

右偏,平均值>中位數>眾數

左偏,平均值<中位數<眾數

 

 

 第二章   探索分析

定義:調用此過程可對變量進行更為深入詳盡的描述性統計分析,故稱之為探索分析。

它在一般描述性統計指標的基礎上,增加有關數據其他特征的文字與圖形描述,顯得更加細致與全面,有助於用戶思考對數據進行進一步分析的方案。

 

案例:

CCSS_Sample.sav, 用探索過程考察不同城市受訪者年齡的分布情況。

 

 

 莖葉圖說明

 

 

比如第二行的數字: 1 | 0 5 6 9, 它們代表數據集中有10、15、16和19四個數字。 可以這樣理解莖+葉=實際的數值,如 1|0 5 6 9 中莖值為1,葉值為 0、5、6和9共四個葉值。

箱線圖

交叉列聯表分析

定義:前面的分析都是對單個變量的數據分布情況進行分析。

但在實際分析中,還需要掌握多個變量在不同取值情況下的數據分布情況,從而進一步深入分析變量之間的相互影響和關系,這種分析就稱為交叉列聯表分析。
用於兩個或兩個以上分組變量之間的關聯關系。

 

研究問題:
不同性別的婚姻狀況,數據調研數據.sav
操作流程:分析——描述統計——交叉表

 

 

 

 

練習: 
CCSS_Sample.sav,希望了解受訪者的性別和學歷交叉頻數分布及百分比情況。

 

 
         

 

 

 

 0.152>0.05 接受0假設;得出性別和學歷沒有關系

多選項分析

1.多選項二分法(Multiple Dichotomies Method)
2.多選項分類法(Multiple Category Method)

 

 

 

 

 

 

 

 

 

 

 

 第三章   相關分析

 假設檢驗

 

假設檢驗 1、假設  2、檢驗
Step1、列出原假設,並默認原假設(無效假設)成立。
Step2、在原假設的條件下抽取樣本,利用樣本驗證原假設的正確性。

 

相關分析的方法原理:
分析步驟一般為: 繪制兩個變量的散點圖; 計算變量之間的相關系數; 相關系數的顯著性檢驗。 SPSS相關系數檢驗的原假設為: H0:
|𝜌| =0 ,兩變量間無直線相關關系

 高度相關>0.8 中度相關0.5-0.8

在說明變量之間線性相關程度時,根據經驗可將相關程度分為以下幾種情況:
|r|≥0.8 時,視為高度相關;
若0.
5≤|r|<0.8 時,視為中度相關;
當0.
3≤|r|<0.5時,視為低度相關;
|r|<0.3時,說明變量之間的相關程度極弱,可視為不相關

 

相關系數:
表示變量間關系的密切程度,如果一個變量的取值發生變化,另外一個變量的取值也相應發生變化,則這兩個變量有關。

分類變量-有序變量-度量

 

分類變量(Nominal/Categorical Variable)

分類變量,有時候也被稱為名義變量,一般指兩個及以上的分類,但是本身沒有等級順序之分。

舉個栗子,性別就是一個只有兩個分類的變量(男同學和女同學)

 

有序變量(Ordinal Variable)

有序變量是指分類數大於等於3,且類別之間存在序次關系的響應變量。

在對此類資料進行統計分析的過程中,我們發現,有序變量的“類間距”並不相等,也就是各類型之間的稀疏程度並不是均勻的。

高 中 低

小學、中學、大學、研究生

 

度量-數值類型

 

 

散點圖:呈現變量間的關聯程度

如果對變量之間的相關程度不需要掌握得那么精確,可以通過繪制變量的相關散點圖來直接判斷。

雙變量相關分析案例:

案例文件 :CCSS_Sample.sav,利用相關分析考察總信心指數與家庭月收入S9的相關性。

 

 

 

 

 0.128>0.05 拒絕零假設 接受備選假設 即:信心指數與家庭月收入S9的相關性

 

偏相關分析案例:

案例文件 :CCSS_Sample.sav,前面的分析知道,家庭月收入對總信心指數是有影響的,

那么現在控制家庭月收入S9對總信心指數影響的前提下,考察總信心指數和年齡的相關性。

 

 

 

 

 

 

 

 

 

 

 

 

 

1111


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM