用Python學習統計學基礎-4
九、顯著性的顯著
顯著水平(significance level)是不能100%確信實驗中觀察到的結果是否是由於處理因素或需要檢驗的因素引起的所需要承擔的風險。
研究案例:參加 學前項目的孩子與沒有參與的孩子在學習成績上是否存在差異。
零假設:兩個群體的學習成績相等(沒有差異)。
研究假設:參與學前項目的孩子的平均成績高於沒有參與項目的孩子的平均成績。
研究的工作就是表明這兩個群體學習成績的差異僅僅是由於學前項目引起的。研究中始終是存在錯誤的可能性,風險的水平就是統計性顯著水平。
統計顯著性(statistical significance)是指零假設為真的情況下拒絕零假設所要承擔的風險水平。
描述統計是用於描述樣本的特征,而推論統計是基於樣本特征推斷總體的某些特征。
常用統計檢驗方法選擇
兩個變量之間的關系 | 相關系數的顯著性的t檢驗 |
多個變量之間的關系 | 回歸,因素分析或典型分析 |
兩個群體一個或多變量之間的差異,相同參與者接受多次測試 | 非獨立樣本的t檢驗 |
兩個以上群體一個或多變量之間的差異,相同參與者接受多次測試 | 配對測量方差分析 |
兩個群體一個或多變量之間的差異,相同參與者不接受多次測試 | 獨立樣本的t檢驗 |
兩個以上群體一個或多變量之間的差異,相同參與者不接受多次測試 | 簡單方差分析 |
統計檢驗步驟
零假設的陳述
設置零假設的風險水平
選擇適當的檢驗統計量
計算檢驗統計量
使用特定統計量的臨界值表確定拒絕零假設需要的值
比較實際值和臨界值
如果實際值大於臨界值,不能接受零假設
如果實際值沒有超過臨界值,零假設是最有力的解釋
十、兩個群體的t檢驗,不同群體的均值檢驗
t檢驗的一個主要假設是兩個群體中每個群體的變異性的量是相等的。t統計量的計算
使用特定的統計量的臨界值分布表確定拒絕零假設需要的值。
用python的scipy.stats的ttest_ind函數可以直接計算t和p。
實例,a組是在家治療的療效值,b組詩家外治療的療效值,檢驗這兩種方法的療效是否存在明顯差異。
from scipy.stats import ttest_ind
a = [3,4,1,1,1,3,3,6,5,1,4,5,4,4,3,6,7,7,7,8]
b = [7,6,7,8,7,6,5,6,4,2,5,4,3,6,7,5,4,3,8,7]
t,p=ttest_ind(a,b)
print t
print p
輸出
-2.15195090047
0.0378183889695
計算得到的p值是0.0378,說明觀察到的差異是由隨機因數引起的概率小於0.04,說明家外治療似乎更有效。
十一、兩個群體的t檢驗,兩個相關群體的均值檢驗
非獨立均值檢驗表明是相同的群體在兩種不同的條件下進行相同的研究,比如學生在接受課外輔導前后成績的差異,a輔導前的測試成績,b輔導后的測試成績。
python代碼
from scipy.stats import ttest_rel
a = [3,5,4,6,5,5,4,5,3,6,7,8,7,6,7,8,8,9,9,8,7,7,6,7,8]
b = [7,8,6,7,8,9,6,6,7,8,8,7,9,10,9,9,8,8,4,4,5,6,9,8,12]
t,p=ttest_rel(a,b)
print t
print p
輸出
-2.44948974278
0.0219829970441