基於樣本分布與理論分布之間的偏離程度構建統計量,得到一個統計量的抽樣分布。
判斷樣本分布與理論分布之間的偏離程度是抽樣誤差還是實質性變化,具體而言就是樣本值與理論值之間的差值是抽樣誤差造成的還是本身就這樣。令樣本統計量(O)與總體真值(E)之間的差值作為統計量,用平方(O-E)來表現樣本分布與理論分布之間的偏離程度,本來應該用絕對值,但是絕對值不好計算,此時采用平方數但仍有問題:

所以,平方整體下面比上理論值能更真實反應。於是得到了卡方統計量為

其中,0.4566就是卡方值。
准確公式是:

其中,自由度是k-1。
如圖:自由度大正態分布,自由度小偏態

注意任意一組的理論次數大於5,即數值大於5。
因為卡方檢驗本來應用於連續型變量,但在列表中是離散型變量,所以對於大樣本可以較好擬合,但是小樣本離散型變量要進行矯正,其中Df=1 連續型矯正:

應用於總體分布未知,假設變量之間的關系,用總體數據檢驗該關系是否存在。
卡方檢驗用途:
1.適合性檢驗:擬合優度檢驗,判斷假設變量關系是否存在。
H0:觀測量滿足XXXX關系,所以滿足概率論中關於獨立變量的計算,便有一個理論值
H1:觀測量滿足XXXX關系
操作:假設滿足XXXX關系,則可得到理論值,結合實際值再計算出卡方值。
顯隱性:在遺傳學中,有許多顯、隱性比率可以划分為兩組的資料,如欲測其與某種理論比率的適合性。
因為顯隱性比例自由度是1,所以需要矯正,最后的卡方值為:

多於兩組的值可以使用

獨立性檢驗:兩個或兩個以上變量之間是否有關系
H0:認為獨立,所以滿足概率論中關於獨立變量的計算,便有一個理論值
H1:認為變量之間不相互獨立
由2×2推得r×c
因為2×2自由度為1,所以需要矯正:

對於r×c則是:

其中,各變量對應如下所示:

其自由度是:

要注意df=1時進行矯正
