SPSS:數據分析3、T檢驗(T Test)方差分析(ANOVA)(Chi-square Test)灰色關聯度分析(Grey Relation Analysis,GRA)弗里德曼檢驗(箱圖(Box)


目錄

1、數據采集

2、數據是否服從正態分布

3、T檢驗(T Test)

4、方差分析(ANOVA)

5、卡方檢驗(Chi-square Test)

6、灰色關聯度分析(Grey Relation Analysis,GRA)

7、弗里德曼檢驗(Friedman Test)

8、箱圖(Box)


1、數據采集

1、數據分類

定性 觀察、訪談、調查
定量 手動測量、自動測量、問卷打分
主觀 等級、排序、感覺、有用性
客觀 時間、數量、錯誤率、分數
自變量 不同的實驗條件因素,研究的因素
因變量 不同的實驗條件所影響的、要觀測的因素
連續數量值(preference) 時間、數量、錯誤率
--- ---
離散數量值(usability 問卷打分
等級數量值(usability) 等級、排序

變量類型

Norminal Data 定類變量 | 變量的不同取值僅僅代表了不同類的事物,這樣的變量叫定類變量。問卷的人口特征中最常使用的問題,而調查被訪對象的“性別”,就是 定類變量。對於定類變量,加減乘除等運算是沒有實際意義的。 Ordinal Data 定序變量 | 變量的值不僅能夠代表事物的分類,還能代表事物按某種特性的排序,這樣的變量叫定序變量。問卷的人口特征中最常使用的問題“教育程度“,以及態度量表題目等都是定序變量,定序變量的值之間可以比較大小,或者有強弱順序,但兩個值的差一般沒有什么實際意義。 Interval Data 定距變量 | 變量的值之間可以比較大小,兩個值的差有實際意義,這樣的變量叫定距變量。有時問卷在調查被訪者的“年齡”和“每月平均收入”,都是定距變量。 Ratio Data 定比變量 | 有絕對0點,如質量,高度。定比變量與定距變量在市場調查中一般不加以區分,它們的差別在於,定距變量取值為“0”時,不表示“沒有”,僅僅是取值為0。定比變量取值為“0”時,則表示“沒有”。

2、數據采集方法

客觀數據避免引入人為誤差;根據實際環境和需求確定;問卷調查需要注意方法、形式;加標簽等管理方法避免混亂

問卷星 :設計問卷,可以在線完成基本的數據分析,也可以和spss相關聯進行分析。

問卷網

3、數據分析軟件

excel :各條件下觀測量的均值、方差、標准誤差

Spss :整體的單因素ANOVA分析和兩兩之間post-hoc分析,獲得對應自由度下的比對結果(F,p)

4、數據分析方法

怎么判別我的數據中存在特異值?教你幾招!

異常值處理方法

保留異常值 | 采用非參數Friedman test檢驗; 用非最近端的值代替極端異常值(如用第二大的值代替極端異常值); 因變量轉換成其他形式; 將異常值納入分析,並堅信其對結果不會產生實質影響。 剔除異常值 | 直接刪除異常值很簡單,但卻是沒有辦法的辦法。當我們需要刪掉異常值時,應報告異常值大小及其對結果的影響,最好分別報告刪除異常值前后的結果。而且,應該考慮有異常值的個體是否符合研究的納入標准。如果其不屬於合格的研究對象,應將其剔除,否則會影響結果的推論。

具體參照師兄的 HCI實驗數據分析之數據可靠性計算,繪制箱圖,描述性變量統計,ANOVA,Bonferroni 的連續變量方差分析

5、數據分析目的

評價觀測變量的效果如何

檢驗實驗條件下的觀測變量是否與對比條件有顯著區別

2、數據是否服從正態分布

1、 什么樣的數據應該滿足正態分布

數據類型  
連續數據 時間、身高、年齡 (可以無限限划分)

](https://baike.baidu.com/item/%E5%8F%82%E6%95%B0%E6%A3%80%E9%AA%8C/555136?fr=aladdin) (先假設H0,根據檢驗結果作出拒絕或接受假設H0的判斷) |

F檢驗(ANOVA)

T檢驗

卡方檢驗

Bonferroni檢驗

離散數據 | 評分 (只能是1、2、3等整數) | 非參數檢驗 (無法對總體分布形態作簡單假設) |

卡方檢驗

二項分布檢驗

K-S檢驗

Friedman檢驗

變量值隨機性檢驗等

針對連續數據的分析,我們同樣應該明白一個概念, 假設實驗中為什么要進行假設?

假設是為了設定一個衡量標准,通過計算出統計量是否滿足一個閾值,來證明你的結果是否和假設一致。

2、 為什么要判斷數據是否符合狀態分布

簡單來說,狀態分布是最簡單的 判斷數據是否有問題 的方法;如果不符合狀態分布,一般的 F檢驗、T檢驗或其它統計分析方法將會失效

3、 如何判斷一組數據是否符合正態分布

描述統計方法

(用描述的數字或圖表來判斷數據是否符合正態分布)

| Q-Q圖 |

|

Q是 quantile 的縮寫,即 分位數 。 分位數就是將數據從小到大排序,然后切成100份,看不同位置處的值。比如中位數,就是中間位置的值。

Q-Q圖的 x軸為分位數y軸為分位數對應的樣本值 。x-y是散點圖的形式,通過散點圖可以擬合出一條直線, 如果這條直線的斜率為標准差,截距為均值.,則可以判斷數據符合正態分布,否則則不可以。

如果擬合出來的直線是45度,可以保證中位數兩邊的數值分布是一樣的,即正態分布中基於中位數左右對稱。

SPSS軟件實現實例

---|---|---|--- P-P圖 |

|

P-P圖是根據變量的累積概率對應於所指定的理論分布累積概率繪制的散點圖,用於直觀地檢測樣本數據是否符合某一概率分布。如果被檢驗的數據符合所指定的分布,則代表樣本數據的點應當基本在代表理論分布的對角線上。

P-P圖的檢驗原理與Q-Q圖基本相同,只是Q-Q圖用的是分布的分位數來做檢驗,而P-P圖是用分布的累計比。和Q-Q圖一樣,如果數據為正態分布,則在P- P正態分布圖中,數據點應基本在圖中對角線上。

SPSS軟件實現實例

直方圖 |

|

直方圖分為兩種,一種是頻率分布直方圖,一種是頻數分布直方圖。頻數就是樣本值出現的次數,頻率是某個值出現的次數與所有樣本值出現總次數的比值。從直方圖我們可以很直觀的看出這組數據是否符合正態分布。

SPSS軟件實現實例

莖葉圖 |

|

莖葉圖的思路是將數組中的數按位數進行比較,將數的大小基本不變或變化不大的位作為一個主干(莖),將變化大的位的數作為分枝(葉),列在主干的后面,這樣就可以清楚地看到每個主干后面的幾個數,每個數具體是多少。

可以看作事數據化的直方圖

統計檢驗方法 | SW檢驗 |

|

S:偏度(skewness),是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征。包括右偏分布(也叫正偏分布,其偏度>0),正態分布(偏度=0),左偏分布(也叫負偏分布,其偏度<0)。公式左1。

W:峰度(kurtosis),表征概率密度分布曲線在平均值處峰值高低的特征數。直觀看來,峰度反映了峰部的尖度,計算方法為隨機變量的四階中心矩與方差平方的比值。公式上就是把偏度計算公式里的冪次改為4即可。峰度包括正態分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)。公式左2。

SPSS軟件實現實例

KS檢驗 |

| KS檢驗是基於樣本累積分布函數來進行判斷的。可以用於判斷某個樣本集是否符合某個已知分布,也可以用於檢驗兩個樣本之間的顯著性差異。如果是判斷某個樣本是否符合某個已知分布,比如正態分布,則需要先計算出標准正態分布的累計分布函數,然后計算樣本集的累計分布函數。兩個函數之間在不同的取值處會有不同的差值。我們只需要找出來差值最大的那個點D。然后基於樣本集的樣本數和顯著性水平找到差值邊界值(類似於t檢驗的邊界值)。判斷邊界值和D的關系, 如果D小於邊界值,則可以認為樣本的分布符合已知分布,否則不可以。 AD檢驗 | |

AD檢驗是在KS基礎上進行改造的,KS檢驗只考慮了兩個分布之間差值最大的那個點,但是這容易受異常值的影響。 AD檢驗考慮了分布上每個點處的差值。

W檢驗 | |

W檢驗(Shapiro-Wilk的簡稱)是基於兩個分布的相關性來進行判斷,會得出一個類似於皮爾遜相關系數的值。 值越大,說明兩個分布越相關,越符合某個分布。

3、 如何將非正態分布數據轉換成正態分布

數據不符合正態分布怎么辦???別着急, 可以進行數據轉換,使其滿足正態分布

  原始數據X(必須為 正值 ),變換后數據X’ 應用場景
對數變換    

X’=lgX

當原始數據中有小值及零時,亦可取X’=lg(X+1) 還可根據需要選用X’=lg(X+k)或X’=lg(k-X)

|

(1)使服從對數正態分布的數據正態化。如環境中某些污染物的分布,人體中某些微量元素的分布等,可用對數正態分布改善其正態性。

(2)使數據達到方差齊性,特別是各樣本的標准差與均數成比例或變異系數CV接近於一個常數時。

平方根變換 | X’=sqrt(X) |

(1)使服從Poission泊松分布的計數資料或輕度偏態資料正態化,可用平方根變換使其正態化。

(2)當各樣本的方差與均數呈正相關時,可使資料達到方差齊性。

倒數變換 | X’=1/X | 常用於資料兩端波動較大的資料,可使極端值的影響減小。 平方根反正弦變換 | X’=sin-1sqrt(X) | 常用於服從二項分布的率或百分比的資料。一般認為等總體率較小如<30%時或較大(如>70%時),偏離正態較為明顯,通過樣本率的平方根反正弦變換,可使資料接近正態分布,達到方差齊性的要求。

SPSS軟件實例演示: SPSS實踐筆記:將非正態分布數據轉換為正態分布 SPSS軟件正態轉換實例

數據滿足正態分布之后,我們就可以進行后續的參數檢驗了。

師兄的 spss數據處理整理

3、T檢驗(T Test)

T檢驗是平均值的比較方法。 需要假設再論證。

_ SPSS官方教程:SPSS Paired Samples T-Test Tutorial _

分類 定義 實例
單一樣本T檢驗 (One-Sample T Test)    

用於比較一個正態總體在方差未知時總體均值與某一已知數是否有顯著性差異。或者說,用看比較未知樣本總體的均值和已知樣本總體的均值(這個是已知的)是否有顯著性差異。這里的單一樣本是指只有一個樣本總體。 | 選取了5個人,測定了他們的身高,要看這五個人的身高平均值是否高於、低於還是等於1.70m 獨立樣本T檢驗 (Independent-Samples T Test) | 用於檢驗兩個獨立樣本是否來自具有相同均值的總體,本質是對兩個樣本均值之差進行T檢驗。 | 選取了5男5女,想看男女之間身高有無差異,這樣,男的一組,女的一組,這兩個組之間的身高平均值的大小比較可用這種方法。 配對樣本T檢驗 (Paired-Samples T Test) | 用於檢驗兩個配對總體的均值是否存在顯著性差異。這里的配對是指,這兩個樣本值之間是一一對應的,樣本容量相同。 | 選取了5個人,分別在飯前和飯后測量了他們的體重,想檢測吃飯對他們的體重有無影響,就需要用這個t檢驗。 注意,配對樣本t檢驗要求嚴格配對,也就是說,每一個人的飯前體重和飯后體重構成一對。

t檢驗方法是由你的數據特點和你的結果要求來決定的。 t檢驗會計算出一個統計量來,這個統計量就是t值, spss根據這個t值來計算最終值 sig值

sig值的意思就是顯著性(significance),即平均值是在百分之幾的幾率上相等的。

結果 結論 說明
sig值 > 0.05 兩組數據差異 不顯著  

說明平均值在大於5%的幾率上是相等的,而在小於95%的幾率上不相等。我們認為平均值相等的幾率還是比較大的,說明差異是不顯著的,從而認為兩組數據之間平均值是相等的。 sig值 < 0.05 | 兩組數據差異 顯著 | 說明平均值在小於5%的幾率上是相等的,而在大於95%的幾率上不相等。我們認為平均值相等的幾率還是比較小的,說明差異是顯著的,從而認為兩組數據之間平均值是不相等的。

t檢驗的幾種應用案例 T檢驗臨界值表

4、 方差分析(ANOVA)

又稱“ 變異數分析 ”或“ F檢驗 ”,用於兩個及兩個以上樣本均數差別的顯著性檢驗。

生物、化學中和人機交互(HCI)中的repeated measure one-way ANOVA(單因素重復測量方差分析)之間的區別

比如, 評價AR系統相對於傳統系統是否能顯著改變時間

什么樣的數據適合單因素方差分析 :當我們看到這種要同時比較多組樣本的均值時,首先就要想到one-way ANOVA,然后再想想用此檢驗方法是否真的合適。

單因素方差分析 | 對成組設計的多個樣本均數比較,應采用完全隨機設計的方差分析 | 單因素方差分析,和Excel示例 SPSS官網教程:SPSS One-Way ANOVA Tutorial ---|---|--- 多因素方差分析 | 對隨機區組設計的多個樣本均數比較,應采用配伍組設計的方差分析 | 多因素方差分析(無重復試驗雙因素),和SPSS程序實現

如何理解ANOVA中的F值與P值 方差分析(ANOVA)與f值,p值

F :越大,認為數值之間存在的差異就越大。

賊棒賊詳細的教程,直接看這個就OK啦: SPSS:單因素重復測量方差分析(史上最詳細教程)

這個太復雜,那就先看這個簡單點的: 單因素方差分析ANOVA及事后檢驗 (這個是單因素,但是包含多個群組,分析群組之間的差異)

5、卡方檢驗 (Chi-square Test)

卡方檢驗就是檢驗兩個變量之間有沒有關系。 什么是卡方檢驗 (這個鏈接說到很好很清楚)

比如, 評價出錯和AR/傳統系統的關系

SPSS官方教程:SPSS Chi-Square Independence Test Tutorial

求卡方值 |

---|--- 求自由度 |

先指定置信度 | 比如:95%

算出自由度和卡方值,根據界值表查詢出理論置信度

指定置信度 > 理論置信度 認為假設不成立
指定置信度 < 理論置信度 認為假設成立

卡方檢驗實例,和界值表

卡方檢驗運用中常見的3大錯誤,來看實例!

X^2 衡量理論與實際的差異程度

P :小於給定的閾值,相關性就越大

6、 灰色關聯度分析(Grey Relation Analysis,GRA)

是一種多因素統計分析的方法。

簡單來講,就是在一個灰色系統中,我們想要了解其中某個我們所關注的某個項目受其他的因素影響的 相對強弱 ,再直白一點,就是說:我們假設以及知道某一個指標可能是與其他的某幾個因素相關的,那么我們想知道 這個指標與其他哪個因素相對來說更有關系,而哪個因素相對關系弱一點 ,依次類推,把這些因素排個序,得到一個分析結果,我們就可以 知道我們關注的這個指標,與因素中的哪些更相關

關注這一個博客案例就全明白了: 灰色關聯度分析(Grey Relation Analysis,GRA)原理詳解

7、 弗里德曼檢驗( Friedman Test)

SPSS軟件數據分析官方案例

SPSS-Friedman 秩和檢驗-非參數檢驗-K個相關樣本檢驗 案例解析

8、 箱圖(Box)

Box(-and-Whisker) Plot SPSS and Excel 箱圖學習

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM