在一組平行測定中,若有個別數據與平均值差別較大,則把此數據視為可疑值,也稱離群值。 如果統計學上認為應該舍棄的數據留用了,勢必會影響其平均值的可靠性。相反,本應該留用的數 據被舍棄,雖然精密度提高,但卻誇大了平均值的可靠性。
1 離群值檢驗方法簡介
設有一組正態樣本的觀測值,按其大小順序排列為x1,x2,x3,……,xn。其中最小值x1或最大值xn為離群值(xout)。對於離群值的統計檢驗,大都是建立在被檢測的總體服從正態分布。基於此,在給定的檢出水平或顯著水平α (通常取值為0.05和0.01)和樣本容量n條件下,可查表獲得臨界值,再通過計算統計量后與臨界值比較,若統計量大於臨界值就判為異常。臨界值表通常給出的是置信度P,對雙側檢驗而言,P = 1 - α/2;對單側檢驗而言,P = 1 - α。
1.1 標准偏差已知情況
采用奈爾檢驗法(樣本容量3 ≤ n ≤ 100),根據下式計算統計量Rn。
1.2 標准偏差未知情況(離群值數量為1時)
更多情況下,數據的標准偏差是未知的,此時可采用的檢驗離群值的方法較多,本文僅給出較為常用的幾種方法。
1.2.1 拉依達法
其中s表示標准偏差。當所要檢測的離群值滿足上述條件時,判定為異常值,否則未發現異常值。
1.2.2 4d檢驗法
其中x¯和d¯分別表示去掉離群值后其余數據的平均值和平均偏差。當所要檢測的離群值滿足上述條件時,判定為異常值,否則未發現異常值。
1.2.3 肖維勒(Chauvenet)法
按上式計算出統計量ωn,根據測定次數n查肖維勒系數表值ω(n)。當ωn > ω(n),判定為異常值,否則未發現異常值。
1.2.4 t檢驗法
其中s和x¯都是由不包括離群值的n - 1個數據計算所得。查t檢驗的臨界值表值kP(n),當kn > kP(n),判定為異常值,否則未發現異常值。
1.2.5 格魯布斯(Grubbs)檢驗法
查格魯布斯檢驗的臨界值表值GP(n),當Gn > GP(n),判定為異常值,否則未發現異常值。
1.2.6 狄克遜(Dixon)檢驗法(樣本容量3 ≤ n ≤ 30)
判斷離群值是最大值還是最小值,再根據樣本容量n代入對應的統計量計算公式,求出統計值rij (或rij')。確定檢出水平α,查狄克遜檢驗的臨界值表值DP(n)。當rij (或rij') > DP(n),判定為異常值,否則未發現異常值。
1.2.7 Q檢驗法
Dixon在提出了1.2.6的檢驗方法之后,於1951年與Dean合作提出了一種針對樣本容量較小(n < 10)的簡化的離群值檢驗方法[9],即為著名的Q檢驗法(Dixon’s Q test)。此法為國內外分析化學教材普遍長期采用。統計量Q值的計算極為簡單,即用可疑值與其最鄰近值之差(xn - xn-1)或(x2 - x1),除以極差(xn - x1):
根據測定的次數和給定的置信度查臨界值表值QP(n),若Q1 (或Qn) > QP(n)則為異常值,否則未發現異常值。由此可見,Q檢驗法類似r10時的狄克遜檢驗法。
1.3 標准偏差未知情況(離群值數量大於1時)
1.3.1 偏度-峰度檢驗法
偏度檢驗法適用於離群值出現在單側的情形。
式中樣本從小到大排列后的第i個數據稱之為xi。
確定檢出水平α,查偏度檢驗的臨界值表值bP(n),當bs > bP(n),判定為異常值,否則未發現異常值。當存在有多個離群值時,先選擇最內側的離群值進行檢驗。例如,當存在有兩個上側離群值xn、xn-1,暫時去除xn,測量次數減1,檢驗xn-1是否為異常值。若不為異常值,測量次數為n,再檢測xn是否為異常值。若xn-1為異常值,xn自然也就舍棄了。
峰度檢驗法適用於雙側情形。
確定檢出水平α,查峰度檢驗的臨界值表值bp'(n)。當bk > bp'(n),判定離均值x¯x¯最遠的值為異常值,去除異常值后,重復峰度檢驗法檢驗是否仍然存在異常值,否則未發現異常值。
1.3.2 狄克遜(Dixon)檢驗法
原理見1.2.6,離群值在同一側時,同偏度檢驗法的原理。離群值在不同側時,先檢驗偏離更遠的離群值。例如,存在兩個位於不同側的離群值時,計算兩個離群值的rij (或rij'),先檢驗rij (或rij')數值較大的離群值,若未判定為異常值,那么另一離群值也自然被保留。若判定為異常值,測定次數相應減1,檢驗rij(或rij')更小的離群值。
1.3.3 格魯布斯(Grubbs)檢驗法
原理見1.2.5,離群值在同一側時,同偏度檢驗法的原理。離群值在不同側時,先檢驗Gn較大的離群值。例如,存在兩個位於不同側的離群值時,檢驗Gn較大的離群值,若未判定為異常值,另一離群值也自然被保留。若判定為異常值,測定次數相應減1,檢驗Gn更小的離群值。
1.4 方法對比
為了比較上述列舉的幾種方法的差別,以便更好地說明各種方法的優缺點,我們將上述列舉的幾種方法從是否考慮了平均值、標准偏差、平均偏差、極差、測定次數、置信度這幾個方面進行了比較(表2)。
根據正態分布規律,偏差超過3σ的概率小於0.3%,當測定次數不多時,這樣的數據可認為異常而舍去。對於實際工作中樣本的有限次測量,由於無法得到總體標准偏差σ,因此拉依達法用s代替σ;而統計學證明d¯d¯,即4d¯d¯≈8σ,此為4d法的依據。兩種方法都進行了一定的近似處理,且依據的關系式在測定次數大於20時才能夠比較好的成立,用來判斷樣本容量不大的可疑值取舍時存在較大誤差。由於方法簡單,不需要查表,因此它們在某些場合仍有所應用。另外,拉依達法相對4d法有更高的靈敏度,因為相較於平均偏差,標准偏差能夠更靈敏地反映出較大偏差數據的存在,但是也有可能造成前者對於非異常極值的錯誤舍棄。
對於肖維勒法、t檢驗法和格魯布斯法,其統計量的計算公式形式相同,但是肖維勒法的根據是將出現概率小於1/2n的數據點判定為異常值,故樣本容量對置信區間的選擇有一定的限制,而另外兩種方法中的置信度都可以自由選擇和查表。相對於肖維勒法和格魯布斯法中采用所有數據進行計算x¯x¯和s,在t檢驗法中計算x¯x¯和s時要除去離群值。除去離群值的做法可以提高s的正確性和獨立性,從而提高方法的精確度和靈敏度,但是也有可能造成s偏小而剔除非異常極值。
表2最后兩種方法中Q檢驗法可認為是狄克遜檢驗法在樣本容量n < 10時的簡化處理。狄克遜檢驗法的處理則較為繁瑣,不僅統計量的計算公式因樣本容量的大小而異,且對單側和雙側檢驗,其臨界值表也各不相同。
2 數據誤判討論
在實際處理過程中,誤判問題是不可避免的,我們只能通過選擇恰當的方法盡量降低誤判發生的幾率。誤判問題存在有兩種,一種為以假當真,一種以真當假。以假為真是將異常值錯誤地保留下來,以假當真的例子:Q檢驗法的判斷公式受離群值的影響較大,可能將異常值判斷成非異常值。另外,離群值的數量超過1時,會使得計算的標准偏差、平均值都受到影響,可能將離群值判定為非異常值。以真為假是將非異常值錯誤地剔除,以真當假的例子:在t檢驗法中處理數據時,預先“剔除”了被檢驗的離群值,這可能導致計算出來的標准偏差較小,從而使得一些位於界限處的離群值被錯誤地判斷為異常值。為了更好說明以上內容,筆者將對以下三個實例進行分析。
例1
不同的離群值檢驗方法可能會有不同的結果,我們通過一個實例來分析一下幾種方法之間的差異。選用了三種方法,分別是格魯布斯法、狄克遜法、拉依達法,選用這三種方法比較的原因是格魯布斯法和狄克遜法是檢驗離群值數量等於1時較優的方法,拉依達法具有計算操作簡便的優勢。
我們從文獻[10]中選取了一個例子,對某種磚的抗壓測試10個試樣,其數據經排列后為(單位為MPa):4.7,5.4,6.0,6.5,7.3,7.7,8.2,9.0,10.1,14.0。檢驗是否存在上側異常值。
已經檢驗出該數據服從正態分布。
題解
樣品量n = 10,平均值x¯x¯= 7.9,標准差s = 2.7。
方法一(格魯布斯法):
確定檢出水平α = 0.05,查表得到G0.95(10) = 2.176,因為G10 > G0.95(10),所以判定14.0為上側的異常值。
方法二(狄克遜法):
確定檢出水平α = 0.05,查表得到D0.95(10) = 0.477,因為r11 < D0.95(10),所以不能判定14.0為上側的異常值。
方法三(拉依達法)
因為|x10−x¯|=|14.0−7.9|=6.1<3s=3×2.7=8.1|x10−x¯|=|14.0−7.9|=6.1<3s=3×2.7=8.1,所以不能判定14.0為上側的異常值。
三種方法檢驗離群值時,只有格魯布斯法判定14.0為上側的異常值,狄克遜法和拉依達法不能判定14.0為異常值。但是格魯布斯法保留的數據范圍窄,這一個例子並不能說明使用格魯布斯法一定比狄克遜法或者拉依達法更為准確。存在不一樣結果的原因可以從這三方面考慮:第一,格魯布斯法和狄克遜法都根據樣本容量和檢出水平來確定置信區間,這種考慮應是更為嚴謹的做法;第二,狄克遜法通過極差比來判斷是否存在異常值,當數據本身較為分散,極差比反映離群值的靈敏度就可能會下降,可能存在以假當真的情況;第三,所給的樣本容量較小,在使用拉依達法判定離群值時,無法發現混在樣品中的異常值。
例2
我們通過這個例子想要說明Q檢驗法存在以假為真的誤判問題,其中以格魯布斯法作為參考標准。
某工廠對原料進行例行檢驗,10次重復測量,將得到的數據按從小到大的順序排列,91,96,99,101,104,108,111,114,119,138。檢驗是否存在上側異常值。
已經檢驗出該數據服從正態分布。
題解
樣品量n = 10,平均值x¯x¯= 108,標准差s = 13.5。
方法一(格魯布斯法):
確定檢出水平α = 0.05,查表得到G0.95(10) = 2.176,因為G10 > G0.95(10),所以判定138為上側的異常值。
方法二(Q檢驗法):
確定檢出水平α = 0.05,查表得到Q0.95(10) = 0.466,因為Q10 < Q0.95(10),所以不能判定138為異常值。
因為Q檢驗法容易受極端值的影響,當數據中存在極端值時,使得Q檢驗法對於異常值的判斷靈敏性不夠,所以發生以假為真的誤判問題。
例3
我們通過這個例子想要說明t檢驗法存在以真為假的誤判問題,其中以格魯布斯法作為參考標准。
實驗室一次對同一物質同一特性的重復觀測14次,得到的觀測值排列后為-0.44,-0.30,-0.24,-0.22,-0.13,-0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01。檢驗是否存在上側異常值。
已經檢驗出該數據服從正態分布。
題解
方法一(格魯布斯法):
樣本容量n = 14,平均值x¯x¯= 0.12,標准差s = 0.40。
確定檢出水平α = 0.05,查表得到G0.95(14) = 2.371,因為G(14) < G0.95(14),所以不能判定1.01為上側的異常值。
方法二(t檢驗法):
樣本容量n = 14,平均值x′¯ = 0.051,s' = 0.32,
確定檢出水平α = 0.05,查表得到k0.95(14) = 2.160,因為k(14) > k0.95(14),所以判定1.01為上側的異常值。
因為t檢驗法預先剔除了離群值進行計算標准偏差,使得所得標准偏差偏小,從而處理臨界的極值被誤判成異常值。所以發生了以真為假的誤判問題。
采用恰當的方法以及多種判別法同時使用可以在一定程度上降低誤判發生的幾率,但是當多種判別法得出的結果不一樣時,我們應該如何取舍呢?以筆者的觀點,采用不同方法的目的就是判斷數據是否為異常值。那么在多種方法都適用,或者說多種方法的准確度相當的情況下,判斷結果是與之后處理方法相對應,也就是跟實際情況相聯系。這種情況下方法的選擇和后續處理方法的考慮因素是相統一的。
3 總結與討論
文中列舉了一些離群值的判定和處理方法,針對其的分析僅為筆者個人作出的概括性觀點,可能與實際情況有一定偏差。另外需要說明的是,本文所介紹的各種方法都是基於正態分布的假設,當碰到不符合正態分布的樣本時,使用上述方法的誤差較大,對此情況許多統計軟件采用箱線圖法對離群值進行判斷。但是由於箱線圖是基於經驗所形成的方法,且不同軟件對於四分點和上下限的定義有本質上的區別,所以沒有被列為一種標准方法[14]。
采用恰當的方法以及多種判別法同時使用可以在一定程度上降低誤判發生的幾率,但是不同方法的原理和側重點不同,難免會出現不同判別法所得結果不一樣的情況。此時,應從實際需求出發以得到最優的結論。對於離群值的處理並非只有舍棄,而是需要對其產生的原因進行分析后再結合實際進行處理。
來自文獻:
- 朱嘉欣,,數據離群值的檢驗及處理方法討論
- http://www.dxhx.pku.edu.cn/article/2018/1000-8438/20180812.shtml