游程檢驗與卡方檢驗學習總結
1.游程檢驗
游程檢驗亦稱“連貫檢驗”,主要目的就是檢驗取值為二分類並且按某種順序(例如時間順序)排列的數據資料,是否確實是隨機出現的,可以通俗理解為檢驗樣本數據的隨機性。
- 基本原理
比如原始數據為:1100001110110000111100;原始數據中0和1交替出現,也有可能連續出現0或1。
出現連續的0或1(單個0或1也算)構成的串列稱為一個游程
一個游程中數據的個數稱為游程長度
一個序列中游程個數用R表示。表示0和1交替輪換的頻繁程度
上圖中數據游程長度分別是2,4,3,1,2,4,4,2;游程個數R=8。
如果游程個數過多,則說明0和1交替特征明顯
如果游程個數過少,則說明0和1相對比較集中
無論游程個數過多,也或者過少,極端情況都說明數據不具有隨機性。因而可以通過游程個數過多或過少來定義假設檢驗的拒絕域,也即通過游程個數來分析數據是否為隨機數據。
原則:如果序列為真隨機序列,那么游程的總數應該不太多也不太少。如果游程的總數極少,就說明樣本缺乏獨立性,內部存在一定的趨勢或者結構,這可能由於觀察值間不獨立,或者來自不同的總體。如果樣本間存在大量游程,則可能有系統的短周期波動影響觀察結果,同樣認為序列非隨機。
檢驗原理:將數據分為兩類(以平均數或者中數或者眾數或者自定義的值為基准,小於此基准的為一類,大於此基准的為一類),看前一個個案的是否影響后一個個案的,若不影響,進而得到數據是隨機抽取的。
2.卡法檢驗
- 基本原理
卡方檢驗的目標就是檢查觀測值的頻數與期望頻數之間的差異顯著性。由於卡方檢驗要求便於對個案進行分類並計算頻數,因此卡方檢驗通常基於定類數據或低測度定序數據,並基於它們分類計算個案的實際頻數,然后通過實際頻數與期望頻數的距離,來判定實際頻數是否與預期目標存在差異。
- 卡方檢驗
由於卡方檢驗的目標是檢查觀測頻數與期望頻數之間的差異性水平,因此卡方檢驗的核心內容就是計算出觀測值的頻數與期望頻數總體差距的統計量,就是卡方距離。
這個距離可以通過“觀測值頻數與期望頻數差值的平方與期望頻率之比的累積和”來體現:
卡方值越大,表示距離越大,差異性越強。可以根據卡方值查表推導出卡方檢驗的概率值,然后根據概率值判定卡方檢驗的判斷結論。
- 總結:簡單的用法就是用擬合優度檢驗來進行計算p值。
總結
對於這兩種檢驗方法的理解只是限於理論理解,游程檢驗原理易懂,打算以編程的方式嘗試編寫一下檢驗代碼。而卡方檢驗更偏重於理論,打算找一個不長的有限序列手工推算一遍來體驗檢驗過程。
以上是前一段時間的學習筆記,如有不足請老師指正。