一、獨立性檢驗
根據頻數信息判斷兩類因子彼此相關或相互獨立的假設檢驗。
p-value
p-value就是Probability的值,它是一個通過計算得到的概率值,也就是在原假設為真時, 得到最大的或者超出所得到的檢驗統計量值的概率。
一般將p值定位到0.05,當 p < 0.05 拒絕原假設,p > 0.05,接受原假設。
1.卡方檢驗 chisq.test()
假設檢驗(Hypothesis Testing)是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。
原假設————沒有發生;
備擇假設————發生了;
具體作法:
根據問題的需要對所研究的總體作某種假設,記作H0 ;選取合適的統計量,這個統計量的選取要使得在假設H0成立時,其分布為已知;由實測的樣本,計算出統計量的值,並根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。
2.Fisher檢驗 fisher.test()
3.Cochran-Mantel-Haenszel檢驗
三變量之間的顯著關系
二、相關性分析函數
相關性分析是指對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度。相關性的元素之間需要存在一定的聯系或者概率才可以進行相關性分析。簡單來說就是變量之間是否有關系。
1.相關性衡量指標
Pearson相關系數、Spearman相關 系數、Kendall相關系數、偏相關系數、多分格( polychoric )相關系數和多系列( polyserial )相關系數
數據:
美國各個州的人口,文盲率,預期壽命、犯罪率等指標
2.cor() 函數,相關性分析
3.cov() 函數,協方差。計算偏相關系數時要使用到協方差的結果
計算一組變量與另一組變量的關系
三、相關性檢驗函數
置信區間 confidence interval
指由樣本統計量所構成的總體參數的估計區間。在統計學中,一個概率樣本的置信區間是對這個樣本的某個總體函數的區間估計。置信區間展現的是這個參數的真實值有一定概率落在測量結果周圍的程度。置信區間給出的是被測量參數的測量值的可信程度。
非參數檢驗 Nonparametric tests
在總體方差未知或知道甚少的情況下,利用樣本數據對總體分布形態等進行推斷的方法。由於非參數檢驗的方法在推斷過程中不涉及有關總體分布的函數,因而得名為“非參數”檢驗。
參數檢驗 Parametric tests
是在總體分布形式已知的情況下,對總體分布的參數如均值、方差等進行推斷的方法。也就是數據分布已知,比如滿足正態分布。
1.cor.test() 函數,檢測兩個變量之間的置信區間和相關性系數
檢測文盲率與謀殺率的關系
2.corr.test() 函數,檢測兩個變量之間的置信區間和相關性系數
3.ggm包下的 pcor.test() 函數