设有一组正态分布的观测值样本,按其大小顺序排列为x1,x2,x3,...,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大多是建立在被检测的总体服从正态分布。基于此,在给定的检出水平或显著水平a(通常取值为0.05和0.01)和样本容量n条件下,可查表获得临界值,在通过计算统计量后与临界值比较,若统计量大于临界值就潘伟异常。临界值表通常给出的是置信度P,对双侧检验而言,P=1-a/2;对单侧检验而言,P=1-a。
1 标准偏差已知情况
奈尔检验法:样本容量(3<n<100) 统计量Rn
Rn = |xout-xmean|/σ
根据检出水平a和样本容量查奈尔检验的临界值表值Rp(n),若Rn>Rp(n),则判为异常值,否则未发现异常值。
2 标准偏差未知情况(离群值数量为1)
2.1 拉依达法
|xout-xmean| > 3s
其中s表示标准偏差,当所要检测的离群值满足上述条件时,判定为异常值,否则未发现异常值。
2.2 4d检验法
|xout-xmean| > 4d
其中xmean和d分别表示去掉离群值之后其余数据的平均值和平均偏差。当所要检测的离群值满足上述条件时,判定为异常值,否则未发现异常值。
2.3 肖维勒(Chauvenet)法
ωn = |xout-xmean|/s
按上式计算出统计量ωn,根据测定次数n查肖维勒系数表值ω(n)。若ωn>ω(n),则判为异常值,否则未发现异常值。
2.4 t检验法
kn = |xout-xmean|/s
其中xmean和s分别表示去掉离群值之后其余数据的平均值和平均偏差。查t的临界值表值kp(n),当kn>kp(n)判定为异常值,否则未发现异常值。
2.5 格鲁布斯(Grubbs)检验法
Gn = |xout-xmean|/s
查格鲁布斯的临界值表值Gp(n),当Gn>Gp(n)判定为异常值,否则未发现异常值。
2.6 狄克逊(Dixon)检验法(样本容量3<n<30)
狄克逊在1950年提出,它的原理是通过离群值与临近值的差值与极差的比值(ratios of ranges and subranges)这一统计量rij来判断是否存在异常值。由于样本容量大小的不同会影响检验法的准确度,因此根据样本容量的不同,统计量的计算公式不同,如表1所示。
判断离群值是最大值还是最小值,再根据样本容量n带入对应的统计量计算公式,求出统计量rij。确定检出水平a。查狄克逊检验的临界值表值Dp(n)。当rij>Dp(n),判为异常值,否则未发现异常值。
2.7 Q检验法
根据测定的次数和给定的置信度查临界值表值Qp(n),若Q1(Qn)>Qp(n),判为异常值,否则未发现异常值。