本節內容:
1:t分布存在的意義是什么
2:t分布的置信區間
3:t分布檢驗
一、t分布存在的意義是什么
數據分析中有一塊很大的版圖是屬於均值對比的,應用廣泛。
例如:對比試驗前后病人的症狀,證明某種葯是否有效;
對比某個班級兩次語文成績,驗證是否有提高;
對比某個產品在投放廣告前后的銷量,看廣告是否有效。這些都屬於兩均值對比的應用。
均值對比的假設檢驗方法主要有Z檢驗和T檢驗:
它們的區別在於Z檢驗面向總體數據和大樣本數據,而T檢驗適用於小規模抽樣樣本。
有判斷了均值就可以做很多的事情了
二、t分布的置信區間
和計算正態分布的置信區間一樣,將正態統計量變成了t分布統計量
relevel(sleep$group,2) ##將group變成factor類型,2的level最大
得出一下結果:
Paired t-test data: extra by relevel(sleep$group, 2) t = 4.0621, df = 9, p-value = 0.002833 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.7001142 2.4598858 sample estimates: mean of the differences 1.58
三、t分布檢驗
T檢驗在使用前有三個應用的注意點:
1、分析的數據對象需要滿足正態分布,T檢驗前需判斷樣本是否正態分布; 2、分析對比的統計量是均值; 3、對比對象是兩個,可以是兩個樣本;也可以是一個樣本和一個常數;
T檢驗有四種類別:
1、配對樣本的T檢驗--》另類的單樣本 獨立性檢驗 2、等方差的獨立樣本T檢驗; 3、異方差的獨立樣本T檢驗; 4、單樣本的T檢驗。 單樣本常用:總體均值跟樣本均值的差異 雙樣本常用:兩樣本之間的差異 對1跟4的原假設H0 = 總體均值跟樣本均值的無差異 對2跟3的原假設H0 = 兩樣本之間的無差異,即x1=x2 T檢驗與Z檢驗不同,需要考慮樣本方差是否相同,這是因為自由度決定了T分布曲線,同時,自由度也影響樣本方差。
如:匹配樣本檢驗栗子:
所謂配對樣本的T檢驗,是指參與對比的兩列數據都是滿足正態分布,
而且兩列數據之間存在一一對應關系。要想判斷這種數據序列之間的差異是否顯著,就可以使用配對樣本T檢驗。
處於待檢驗狀態的兩列配對樣本,應該具有相同的數據個數,而且兩列數據在語義上有一一對應關系。
例如對同一個班級的兩次考試成績,這兩次成績都按照學號順序存放,具有明確的對應關系。
栗子:
采用R自帶的sleep為數據集 -> 顯示兩種催眠葯(與對照組相比睡眠時間增加)對10名患者的療效的數據。 相要知道這個兩種葯是否有顯著性差異? H0:兩種無顯著性差異 也集是x1-x2的 d均值為0 -》mu=0 H1:兩種有顯著性差異 由於配對樣本檢驗本質是一種單樣本T檢驗,如下:
t.test(sleep$extra[1:10]-sleep$extra[11:20],mu=0) One Sample t-test data: sleep$extra[1:10] - sleep$extra[11:20] t = -4.0621, df = 9, p-value = 0.002833 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -2.4598858 -0.7001142 sample estimates: mean of x -1.58
結論:p>0.05二者具有顯著性差異,拒絕原假設。
如:單樣本檢驗栗子:
全班有52名學生,若學校想知道某個班的英語成績與全市平均成績相比是否有差異。
班級μ=79
原假設:平均值=79
備擇假設:平均值≠79
H0:79是該市英語平均分,如果結果是接收原假設,那么證明該班的平均分與該市是無差異的。
t.test(data$英語成績,mu=79)
在該檢驗結果中,觀測到p=2.122*10-11<0.05,拒絕原假設。也就是說,該班的成績跟全市平均成績是有顯著性差異的。:
如:獨立性樣本檢驗
獨立樣本是兩個沒有對應關系的獨立正態分布數據集合,可以有不同的數據個數,
例如,對同一學校的某次考試,如果需要檢驗男生與女生的成績之間有無顯著性差異在總體成績滿足正態分布的情況下,
則都可以使用獨立樣本的T檢驗,但是在進行T檢驗之前,需要明確兩個樣本的方差是否相同,然后根據方差齊性與否選擇相應的計算方法。
獨立性檢驗
同方差獨立T檢驗
比如說我們比較城東的房價增長率跟城西的,他們都是來自北京的同個標准差的總體。
他們之間的差異性只是由於抽樣存在的差異
異方差獨立T檢驗
假設樣本來自兩個不同的總體,就是說是異方差
他們之間的差異性不止由於抽樣存在的差異,還有來自總體的原因。
我們算他們的置信區間,其實是一樣的,只不過對於自由度,標准誤我們需要取套用各自的公式。
t的獨立性樣本檢驗用於檢驗兩樣本的均值是否是顯著,常用於某二分類變量區間下的連續變量是否有顯著性
栗子:
其中。var.equal= T 是兩樣本的方差一樣,關於如何判斷是否方差一樣我們可以對數據做
方差齊性檢驗:var.test(avg_exp~gender,data=cre) 得出p為:0.67 不能拒絕原假設
最后得出:
p > 0.05不能拒絕原假設,也就是兩樣本之間是無顯著的。