在對數據進行統計分析之前,應該先查看數據的特征,然后根據其特征選擇分析方法。
很多統計假設方法要求數據是符合正態分布的和方差齊性。
1.數據的正態分布驗證:
- 夏皮羅-威爾克(Shapiro-Wilk)檢驗法,適用於3 < 樣本數< 5000 時的正態性檢驗。
> data2 [1] 10 7 20 14 14 12 10 23 17 20 14 13 > a=shapiro.test(data2) > a Shapiro-Wilk normality test data: data2 W = 0.95757, p-value = 0.7487 ##p值表示這個數據群是正態分布的概率
2.方差齊性檢驗
Bartlett檢驗 - 如果我們的數據服從正態分布,那么這種方法將是最為適用的。對於正態分布的數據,這種檢驗極為靈敏;而當數據為非正態分布時,使用該方法則很容易導致假陽性誤判。
> data count spray 1 10 A 2 7 A 3 20 A 4 14 A 5 14 A 6 12 A 7 10 A 8 23 A 9 17 A 10 20 A 11 14 A 12 13 A 13 11 B 14 17 B 15 21 B 16 11 B 17 16 B 18 14 B 19 17 B 20 17 B 21 19 B 22 21 B 23 7 B 24 13 B > bartlett.test(count~spray,data=data) Bartlett test of homogeneity of variances data: count by spray Bartlett's K-squared = 0.10464, df = 1, p-value = 0.7463 ##p值是條件A和條件B的方差齊性的概率