Grubbs' Test


 

目的:
檢測異常值Grubbs的檢驗(Grubbs 1969和Stefansky 1972)用於檢測單變量數據集中的單個異常值,該單變量數據集遵循近似正態分布。
如果您懷疑可能存在多個異常值,建議您使用Tietjen-Moore測試或廣義極端學生化偏差測試而不是Grubbs測試。

格拉布斯的測試也稱為最大標准殘差測試。實際上,Grubbs' Test可理解為檢驗最大值、最小值偏離均值的程度是否為異常。

定義:

Grubbs的測試是針對假設定義的:
H0:數據集中沒有異常值
H1:數據集中只有一個異常值


Grubbs的測試統計定義為:

Y和s分別表示樣本均值和標准差。 Grubbs的檢驗統計量是樣本標准偏差單位與樣本均值的最大絕對偏差。
這是測試的雙邊檢測。 Grubbs的測試也可以定義為以下單邊檢測:

測試最小值是否為異常值:

用Ymin表示最小值。

測試最大值是否為異常值:

Ymax表示最大值。

顯着性等級:α
關鍵:對於雙側檢驗,如果沒有異常值的假設則被拒絕

 

用tα/(2N),N-2表示具有(N-2)自由度的t分布的臨界值和α/(2N)顯着性水平。對於單側測試,我們使用α/ N的顯着性水平。

 

▲概述:一組測量數據中,如果個別數據偏離平均值很遠,那么這個( 這些) 數據稱作“可疑值”。如果用統計方法—例如格拉布斯(Grubbs) 法判斷,能將“可疑值”從此組測量數

據中剔除而不參與平均值的計算,那么該“可疑值”就稱作“異常值( 粗大誤差) ”。本文就是介紹如何用格拉布斯法判斷“可疑值”是否為“異常值”。

▲測量數據:例如測量10 次( n= 10) ,獲得以下數據: 8.2 、5.4 、14.0 、7.3 、4.7 、9.0 、6.5 、10.1 、7.7 、6.0 。

▲排列數據: 將上述測量數據按從小到大的順序排列, 得到4.7 、5.4 、6.0 、6.5 、7.3 、7.7 、8.2 、9.0 、10.1 、14.0 。可以肯定,可疑值不是最小值就是最大值。

▲計算平均值x- =7.89和標准差s= 2.704 。計算時,必須將所有10 個數據全部包含在內。

▲計算偏離值:平均值與最小值之差為7.89 - 4.7 = 3.19 ;最大值與平均值之差為14.0 -7.89 = 6.11 。

▲確定一個可疑值:比較起來,最大值與平均值之差6.11 大於平均值與最小值之差3.19 ,因此認為最大值14.0 是可疑值。

▲計算Gi 值: Gi = ( xi - x- )/ s;其中i 是可疑值的排列序號— 10 號;因此G10=( x10- x- )/ s= (14.0 -7.89)/2.704 =2.260 。由於x10- x-是殘差,而s 是標准差,因而可認為G10 是殘差與標准差的比值。

下面要把計算值Gi 與格拉布斯表給出的臨界值GP( n) 比較,如果計算的Gi 值大於表中的臨界值GP( n) ,則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP( n) 與兩個參數有關:檢出水平α ( 與置信概率

P有關) 和測量次數n ( 與自由度f 有關) 。


▲定檢出水平α:如果要求嚴格,檢出水平α 可以定得小一些,例如定α =0.01 ,那么置信概率P=1- α= 0.99 ;如果要求不嚴格, α 可以定得大一些,例如定α = 0.10 ,即P=0.90 ;通常定α= 0.05 ,P= 0.95 。

▲查格拉布斯表獲得臨界值:根據選定的P值( 此處為0.95) 和測量次數n( 此處為10) ,查拉布斯表,橫豎相交得臨界值G95(10) = 2.176 。

▲比較計算值Gi 和臨界值G95(10) :Gi = 2.260 ,G95(10) = 2.176 ,Gi >G95(10) 。


▲判斷是否為異常值:因為Gi >G95(10) ,可以判斷測量值14.0 為異常值,將它從10 個測量數據中剔除。

▲余下數據考慮:剩余的9 個數據再按以上步驟計算,如果計算的Gi >G95(9) ,仍然是異常值,剔除;如果Gi <G95(9) ,不是異常值,則不剔除。本例余下的9 個數據中沒有異常值。

格拉布斯表——臨界值GP( n)

對異常值及統計檢驗法的解釋
測量過程是對一個無限大總體的抽樣:對固定條件下的一種測量,理論上可以無限次測量下去,可以得到無窮多的測量數據,這些測量數據構成一個容量為無限大的總體;或者

換一個角度看,本來就存在一個包含無窮多測量數據的總體。實際的測量只不過是從該無限大總體中隨機抽取一個容量為n( 例如n= 10) 的樣本。這種樣本也可以有無數個,每個樣

本相當於總體所含測量數據的不同隨機組合。樣本中的正常值應當來自該總體。通常的目的是用樣本的統計量來估計總體參量。總體一般假設為正態分布。

異常值區分:樣本中的正常值應當屬於同一總體;而異常值有兩種情況:第一種情況異常值不屬於該總體,抽樣抽錯了,從另外一個總體抽出一個( 一些) 數據,其值與總體平均

值相差較大;第二種情況異常值雖屬於該總體,但可能是該總體固有隨機變異性的極端表現,比如說超過3σ 的數據, 出現的概率很小。用統計判斷方法就是將異常值找出來, 舍去。

犯錯誤1:將本來不屬於該總體的、第一種情況的異常值判斷出來舍去,不會犯錯誤;將本來屬於該總體的、出現的概率小的、第二種情況的異常值判斷出來舍去,就會犯錯誤。

犯錯誤2:還有一種情況, 不屬於該總體但數值又和該總體平均值接近的數據被抽樣抽出來,統計檢驗方法判斷不出它是異常值,就會犯另外一種錯誤。

異常值檢驗法:判斷異常值的統計檢驗法有很多種,例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達法、奈爾法等等。每種方法都有其適用范圍和優缺點。

格拉布斯法最佳:每種統計檢驗法都會犯犯錯誤1 和錯誤2。但是有人做過統計,在所有方法中,格拉布斯法犯這兩種錯誤的概率最小,所以推薦使用格拉布斯法。

多種方法結合使用:為了減少犯錯誤的概率,可以將3 種以上統計檢驗法結合使用,根據多數方法的判斷結果,確定可疑值是否為異常值。

異常值來源:測量儀器不正常,測量環境偏離正常值較大,計算機出錯,看錯,讀錯,抄錯,算錯,轉移錯誤。

——

參考:

https://en.wikipedia.org/wiki/Grubbs%27s_test_for_outliers

https://www.itl.nist.gov/div898/handbook/eda/section3/eda35h1.htm

https://wenku.baidu.com/view/84695b4e852458fb770b56bb?from=timeline&isappinstalled=0


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM