数据离群值的检验方法


       设有一组正态分布的观测值样本,按其大小顺序排列为x1,x2,x3,...,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大多是建立在被检测的总体服从正态分布。基于此,在给定的检出水平或显著水平a(通常取值为0.05和0.01)和样本容量n条件下,可查表获得临界值,在通过计算统计量后与临界值比较,若统计量大于临界值就潘伟异常。临界值表通常给出的是置信度P,对双侧检验而言,P=1-a/2;对单侧检验而言,P=1-a。

1 标准偏差已知情况

     奈尔检验法:样本容量(3<n<100)   统计量Rn

                                                       Rn = |xout-xmean|/σ

    根据检出水平a和样本容量查奈尔检验的临界值表值Rp(n),若Rn>Rp(n),则判为异常值,否则未发现异常值。

2 标准偏差未知情况(离群值数量为1)

2.1 拉依达法

                                                   |xout-xmean| > 3s

    其中s表示标准偏差,当所要检测的离群值满足上述条件时,判定为异常值,否则未发现异常值。

2.2 4d检验法

                                                  |xout-xmean| > 4d

  其中xmean和d分别表示去掉离群值之后其余数据的平均值和平均偏差。当所要检测的离群值满足上述条件时,判定为异常值,否则未发现异常值。

2.3 肖维勒(Chauvenet)法

                                                 ωn = |xout-xmean|/s

按上式计算出统计量ωn,根据测定次数n查肖维勒系数表值ω(n)。若ωn>ω(n),则判为异常值,否则未发现异常值。

2.4  t检验法

                                                kn = |xout-xmean|/s

其中xmean和s分别表示去掉离群值之后其余数据的平均值和平均偏差。查t的临界值表值kp(n),当kn>kp(n)判定为异常值,否则未发现异常值。

2.5 格鲁布斯(Grubbs)检验法

                                              Gn = |xout-xmean|/s

查格鲁布斯的临界值表值Gp(n),当Gn>Gp(n)判定为异常值,否则未发现异常值。

2.6 狄克逊(Dixon)检验法(样本容量3<n<30)

    狄克逊在1950年提出,它的原理是通过离群值与临近值的差值与极差的比值(ratios of ranges and subranges)这一统计量rij来判断是否存在异常值。由于样本容量大小的不同会影响检验法的准确度,因此根据样本容量的不同,统计量的计算公式不同,如表1所示。

       判断离群值是最大值还是最小值,再根据样本容量n带入对应的统计量计算公式,求出统计量rij。确定检出水平a。查狄克逊检验的临界值表值Dp(n)。当rij>Dp(n),判为异常值,否则未发现异常值。

2.7 Q检验法

 

根据测定的次数和给定的置信度查临界值表值Qp(n),若Q1(Qn)>Qp(n),判为异常值,否则未发现异常值。

 

 

 

 

 

 

 

 

 

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM