(轉)格拉布斯准則(Grubbs Criterion)處理數據異常


格拉布斯准則:https://baike.baidu.com/item/%E6%A0%BC%E6%8B%89%E5%B8%83%E6%96%AF%E5%87%86%E5%88%99/3909586

Grubbs格拉布斯檢驗臨界值表:https://wenku.baidu.com/view/0f3c083a172ded630a1cb6c8.html

原文鏈接:https://blog.csdn.net/ChenVast/article/details/82796657
 

簡介

Grubbs測試(以1950年發表測試的Frank E. Grubbs命名),也稱為最大歸一化殘差測試極端學生化偏差測試,是一種統計測試,用於檢測假設的單變量數據集中的異常值來自正常分布的人口。

 

定義

格拉布斯的測試基於正態假設。也就是說,在應用Grubbs測試之前,應首先驗證數據是否可以通過正態分布合理地近似。

格拉布斯的測試一次檢測到一個異常值。從數據集中刪除該異常值,並且迭代測試直到沒有檢測到異常值。但是,多次迭代會改變檢測概率,並且測試不應該用於六個或更少的樣本大小(n>6),因為它經常將大多數點標記為異常值。

 

Grubbs測試是根據假設定義的:

H_{0}:數據集中沒有異常值

H_{a}:數據集中只有一個異常值

 

公式

G = {\ frac {\ displaystyle \ max _ {{i = 1ï¼\ ldotsï¼N}} \ left \ vert Y_ {i}  -  {\ bar {Y}} \ right \ vert} {s}}

 {\ overline {Y}} 和 小號分別表示樣本均值標准差

Grubbs檢驗統計量是樣本標准差的單位與樣本均值的最大絕對偏差。

這是測試的雙邊版本。

 

Grubbs測試也可以定義為單側測試

要測試最小值是否為異常值

公式:

G = {\ frac {{\ bar {Y}}  -  Y _ {\ min}} {s}}

要測試最大值是否為異常值

公式:

G = {\ frac {Y _ {\ max}  -  {\ bar {Y}}} {s}}

 

Y_{min}表示最小值。

Y_{max}表示最大值。

 

 

對於雙邊測試,沒有異常值的假設在顯著級別a級被拒絕

G> {\ frac {N-1} {{\ sqrt {N}}}} {\ sqrt {{\ frac {t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}} {N -2 + t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}}}}}

t_{a/(2N),N-2)}表示的上臨界值的的t分布N - 2 自由度和 顯着性水平a/(2N)。對於單側檢驗,用a/N代替a/(2N)。

t分布可用於構建真實均值的置信區間

 

缺點

格拉布斯和和狄克遜法均給出了嚴格的結果,但存在狄克遜法同樣的缺陷。

 

優化

朱宏等人采用數據值的中位數取代平均值,改進得到了更為穩健的處理方法,有效消除了同側異常值的屏蔽效應。

國際上常推薦采用格拉布斯准則法。

 

參考:https://en.wikipedia.org/wiki/Grubbs%27_test_for_outliers

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM