設有一組正態分布的觀測值樣本,按其大小順序排列為x1,x2,x3,...,xn。其中最小值x1或最大值xn為離群值(xout)。對於離群值的統計檢驗,大多是建立在被檢測的總體服從正態分布。基於此,在給定的檢出水平或顯著水平a(通常取值為0.05和0.01)和樣本容量n條件下,可查表獲得臨界值,在通過計算統計量后與臨界值比較,若統計量大於臨界值就潘偉異常。臨界值表通常給出的是置信度P,對雙側檢驗而言,P=1-a/2;對單側檢驗而言,P=1-a。
1 標准偏差已知情況
奈爾檢驗法:樣本容量(3<n<100) 統計量Rn
Rn = |xout-xmean|/σ
根據檢出水平a和樣本容量查奈爾檢驗的臨界值表值Rp(n),若Rn>Rp(n),則判為異常值,否則未發現異常值。
2 標准偏差未知情況(離群值數量為1)
2.1 拉依達法
|xout-xmean| > 3s
其中s表示標准偏差,當所要檢測的離群值滿足上述條件時,判定為異常值,否則未發現異常值。
2.2 4d檢驗法
|xout-xmean| > 4d
其中xmean和d分別表示去掉離群值之后其余數據的平均值和平均偏差。當所要檢測的離群值滿足上述條件時,判定為異常值,否則未發現異常值。
2.3 肖維勒(Chauvenet)法
ωn = |xout-xmean|/s
按上式計算出統計量ωn,根據測定次數n查肖維勒系數表值ω(n)。若ωn>ω(n),則判為異常值,否則未發現異常值。
2.4 t檢驗法
kn = |xout-xmean|/s
其中xmean和s分別表示去掉離群值之后其余數據的平均值和平均偏差。查t的臨界值表值kp(n),當kn>kp(n)判定為異常值,否則未發現異常值。
2.5 格魯布斯(Grubbs)檢驗法
Gn = |xout-xmean|/s
查格魯布斯的臨界值表值Gp(n),當Gn>Gp(n)判定為異常值,否則未發現異常值。
2.6 狄克遜(Dixon)檢驗法(樣本容量3<n<30)
狄克遜在1950年提出,它的原理是通過離群值與臨近值的差值與極差的比值(ratios of ranges and subranges)這一統計量rij來判斷是否存在異常值。由於樣本容量大小的不同會影響檢驗法的准確度,因此根據樣本容量的不同,統計量的計算公式不同,如表1所示。
判斷離群值是最大值還是最小值,再根據樣本容量n帶入對應的統計量計算公式,求出統計量rij。確定檢出水平a。查狄克遜檢驗的臨界值表值Dp(n)。當rij>Dp(n),判為異常值,否則未發現異常值。
2.7 Q檢驗法
根據測定的次數和給定的置信度查臨界值表值Qp(n),若Q1(Qn)>Qp(n),判為異常值,否則未發現異常值。