SPSS數據分析中出現的常見問題總結


總結最近數據分析過程中遇到的一些問題的思考

1.問卷中多選題的錄入與分析 2.數據分析流程的第一步:對所分析的樣本數據本身的特征結構進行預分析 3.根據數據中的某個因素的幾個水平來分析數據總體的差異性。 4.根據數據中的變量之間的相關性,了解數據的內部關系,並建立模型。 5.數據的降維處理。 6.結構方程模型的運用。 7.時間序列的分析,主要運用在經濟模型中。 8.面板數據的處理。

* 在接單的過程中發現,SPSS主要適用於橫截面數據的處理,大多數集中在問卷調查的分析上 *

* 對於時間序列的分析主要使用Eviews和Stata兩個軟件,面板數據的處理集中於Stata *

* 由於SPSS軟件單機處理數據量受到限制,可以處理數據量不大的機器學習算法,所以個人認為處理機器學習的問題用Python處理 *

問卷中多選題的錄入與分析

對於多選題的錄入,常見的方法有兩種:多重二分法和多重分類法。 多重二分法 是指對每一個選項都定義一個變量,這些變量都是只有兩個取值,分別代表選擇和未選擇。 多重分類法 就是將多選題當做單選題來選,每一個變量空格填寫其中的一次選項的選擇,最保險的做法就是多選題有多少個選項,就設置多少個變量 多重二分法適用於多選題選項個數不多的多選題,多重分類法適用於多選題選項數量多且有些選項幾乎不被選上的情況

設定多選題變量集

由於多選題在SPSS中被判定為一個一個零散的變量,需要人為將整個多選題設置為一道多選題,此時在SPSS中的操作為:分析-多重響應-定義變量集

將需要組成多選題的變量選進集合中的變量,對於多重二分類問題在變量編碼方式上選擇二分法,計數值填寫表示選中的值;對於多重多分類問題選擇類別,范圍填寫實際問卷中的數值范圍。最后將多選題的名稱,對多項題解釋說明的標簽填寫完畢后,點擊添加按鍵,完成多選題的定義。

多選題的分析處理

通過分析多選題中每個選項被選擇頻率和交叉表格。通過使用頻率分析和交叉表格分析:SPPS操作為分析 - 多重響應 - 頻率或交叉表格。

頻率分析 將定義好的多重二分類多選題選入表格,並設置缺失值為在二分集內按照列表順序排除的個案,如果是多重多分類問題,缺失值設置為在類別內按照列表順序排除個案。 * 交叉表格分析 * 在交叉表格分析中,將問題的影響因素放入行中(例如性別的影響,學院的影響等),將多選題(多響應集)放入列,將額外層級放入層(如年級,學歷等)。然后分別點擊行與層內的變量,點擊定義范圍為其范圍設定區間,如性別變量1代表男,2代表女,范圍就是(1,2)。

頻數分析結果

 

由於是多選題,一個人會選擇多個觀點,所以總計顯示的是總觀點數,其中一個觀點數目/總觀點數就是響應百分比,其中一個觀點數目/總人數就是個案百分比。

交叉表格結果

 

數據分析流程的第一步:對所分析的樣本數據本身的特征結構進行預分析

1.對於 數值型數據 ,可以從數據的直方圖中初步了解這個變量的數據分布形式,對於檢驗數據是否符合正態分布可以使用SPSS軟件中的PP圖和QQ圖進行直觀上的初步檢驗,進一步可以通過非參數檢驗中的K- S檢驗,通過顯著性水平來檢驗數據是否符合正態分布性質。 直方圖 在SPSS中的操作:圖形 - 圖形構建器

或者通過:分析 - 描述統計 - 頻率

通過分析菜單中的統計描述,可以完成數值型數據的初步統計描述,包括百分位數、集中趨勢、離散趨勢、分布(偏度、峰度)、直方圖,箱線圖也是很重要描述數據分布的一種統計圖表。

STEP1 繪制帶有正態曲線的直方圖通過對比直方圖與正態曲線的擬合程度,判定數據序列的分布形態是否接近正態分布。 STEP2 通過繪制Q-Q圖與P-P圖來從圖形上檢驗數據是否服從正態分布。SPSS中的操作為:分析 - 描述統計 - P-P圖或者Q-Q圖。

 

左側兩幅圖中,語文成績的散點分布與斜線擬合的較好,數學成績的散點嚴重偏離斜線。右側兩幅圖中,描述的是數據分布與正態分布的差值,可見語文成績與正態分布的偏差較小,而數學成績與正態分布的偏差較大。故此,語文成績偏差較小,可認為是基本符合正態分布。 STEP3 通過非參數檢驗K-S正態檢驗,從定量的角度對數據的分布進行甄別。在SPSS中的操作為:分析 - 非參數檢驗 - 舊對話框 - 1樣本K-S。

2.對於 分類型數據 而言數據的分布主要是對各個類別取值分別進行頻數和比例計算,在進一步計算所需的一些相對數指標。 SPSS軟件中可以用到的功能: 1.頻率過程:針對單個分類變量輸出頻數表,從中得到頻數,百分比,累計百分比,眾數,條形圖,餅圖。 2.交叉表過程:其強項在於兩個或者多個分類變量的聯合描述,可以產生二維至n維列聯表,並計算相應的行/列/合計百分比,行/列匯總指標。 3.多重響應子菜單:適用於對於多選題的頻數分析和交叉表分析。

根據數據中的某個因素的幾個水平來分析數據總體的差異性

針對連續型變量的統計推斷中,t-test和Anova analyse是最常用的兩種方法 中心極限定理 假設有一個已知服從正態分布的總體N(u,σ^2),現對其進行抽樣研究,每次抽樣的樣本量固定為n,這樣對每一個樣本均可以計算出其均數 x ,由於這種抽樣可以進行無線多次,這些樣本均數就會構成一個分布。統計學家發現,該分布正好是服從N(u,σ^2/n),為了區分樣本所在總體的標准差,通常稱樣本均數的標准差為樣本均數的標准誤,簡稱均數標准誤。即使是從偏態總體隨機抽樣,當n足夠大時,均數 x 也近似正態分布,也就是說樣本容量為n的樣本均數 x 出現在置信區間的概率為0.95. t-test 由於實際數據中並不知道總體的方差,通過s/√n來估計總體標准差。 SPSS中t-test的相應功能主要集中在比較均值的子菜單中。

1.單樣本t檢驗過程:進行樣本均數與已知均數的比較。 2.獨立樣本t檢驗過程:進行兩相互獨立樣本均數差別的比較,通常所說的兩組資料的t檢驗。 3.配對樣本t檢驗過程:進行配對資料的均數比較。

單樣本t-test過程

一組樣本數據的均值與一個常數進行比較,判斷是否存在顯著差異。中心極限定理中說明,只要樣本容量n足夠大,均數也近似服從正態分布,所以t- test的限制條件比較少。

獨立樣本t-test

通過一個分組變量(性別),分成兩個相互獨立的樣本,然后比較兩個獨立樣本的均值是否存在顯著差異。t-test的本質就是兩兩比較。

兩個獨立樣本t檢驗的原假設為兩個總體均值之間不存在顯著性差異,需分兩步完成:1.利用F檢驗進行兩個總體方差的同質性判斷;2.根據方差的同質性的判斷,決定t統計量的自由度和計算公式,進而對t檢驗的結果給與恰當的判斷。

配對樣本t-test 1.一組樣本處理前后 2.一組樣本兩種處理方法 配對t檢驗的基本原理是為每對數據求差值,如果兩種處理實際上沒有差異,則差值的總體均數應當為0。 在SPSS中的操作為:分析 - 比較平均值 - 成對樣本t檢驗

Anova analyse

Anova analyse和t-test的不同: t-test可以解決單樣本、兩樣本時的均數比較問題,Anova analyse所涉及的問題其實就是在單一處理因素之下,多個不同水平之間連續型觀察值的比較,目的是通過對多個樣本的研究來判斷這些樣本是否來自同一個總體。如果假設檢驗拒絕了多個樣本來自同一個總體的假設,研究者將更加關心這幾個樣本到底來自於幾個不同的總體,t-test則無法做到。

t-test適用於對兩個樣本均數的比較,Anova analyse適用於多個樣本均數的比較。 方差分析的理論基礎:將總變異分解為由研究因素所造成的部分和由抽樣誤差所造成的部分,通過比較來自於不同部分的變異,借助F檢驗做出推斷。

Anova analyse分析的基本思路: 總變異(離差平方和)=組內變異+組間變異 組內變異來自於各組隨機變異的和 組間變異來自於隨機變異和處理因素導致的變異 所以通過比較組間變異與組內變異,若組間變異遠大於組內變異則說明確實存在處理因素的影響。 通過構造F統計量,通過樣本的數據來檢驗是否存在處理因素的影響。 如果假設檢驗拒絕了原假設,可以得出多個樣本不是來自同一個總體的結論。但是到底這些樣本來自幾個不同的總體。這次假設檢驗還不能回答這個問題,需要進一步進行單因素不同水平間的多重比較。

單因素Anova analyse在SPSS中的操作:分析 - 比較平均值 - 單因素Anova檢驗 1.因變量列表中選入需要檢驗的變量,可以選入多個,系統會依此檢驗。 2.因子選入需要研究的單因素(只能選入一個) 3.事后比較中假定等方差中選擇LSD與S-N-K兩個選項,不假定等方差選擇T2。樣本數量不同時候的事后檢驗選擇雪費。 4.選項中選擇方差同質性檢驗與平均圖。

https://mp.weixin.qq.com/s?__biz=MjM5MTI5MDgxOA==&mid=2650097668&idx=1&sn=c5a0c947f11d3f1e1bdec9f7abcd3c5e&chksm=beb62ca989c1a5bf594599e44ed8aded1abd575801b1722cd9567b5bd71b6bbde9676b431776&scene=21#wechat_redirect

兩因素Anova analyse在SPSS中的操作:分析 - 一般線性模型 - 單變量

固定因子指樣本中將因子的各種情況都出現過,隨機因子指樣本中並沒有將各種情況都列出

 

 

 

 

含隨機因素的方差分析 固定因子與隨機因子的區別 固定因素 指的是該因素在樣本中 所有可能的水平都出現 了。換言之,該因素的所有可能水平僅此幾種,針對該因素而言,從樣本的分析結果中就可以得知所有水平的狀況,無需進行外推。比如要研究三種促銷手段的效果有無差別,所有樣本只會是三種促銷方式之一,不存在第4種促銷手段的問題,則此時該因素就被認為是固定因素。

隨機因素 指的是該因素 所有可能的取值在樣本中沒有全部出現 。換言之,目前在樣本中的這些水平是從總體中隨機抽樣而來,如果重復本研究,則可能得到的因素水平會和現在完全不同,這時,研究者顯然希望得到的是一個能夠“泛化”,即對所有可能出現的水平均適用的結果。例如研究廣告類型和投放的城市對產品銷量是否有影響,在設計中隨機抽取了20個城市進行研究,顯然,研究者希望分析結果能夠外推到所有類型的城市,此時就涉及將結果外推到抽樣未包括的城市中的問題,在這種情況下,城市就應當是一個隨機因素。

在SPSS中的操作為:分析 - 一般線性模型 - 單變量 因變量選入需要研究的變量 固定因子選入所有可能的水平都出現的因子。 隨機因子選入所有可能的取值在樣本中沒有全部出現

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM