概述
正態概率圖是Q-Q圖的一種,Q-Q圖全稱Quantile-Quantile圖,借助Q-Q圖可以檢驗數據的分布情況。
Q-Q圖比較的是實際數據的分布情況與理論的偏差,正態概率圖是Q-Q圖的一種,其比較的是實際數據與正態分布理論點的偏差情況。
正態概率圖的原理
假設現在需要從一個正態分布中抽樣出9個點,最理想的情況下(理論情況下)抽樣得到的9個點會將正態分布按照其累積概率進行10等分,獲得如下圖所示的分布情況,各個顏色塊的面積是相等的。(這9個將概率分布平均分為10份的點,稱之為十分位數,第一個點為第一十分位數,第二個為第二十分位數,以此類推)
通過對比抽樣得到數值與這9個十分位數的分布情況,就可以確定數據是否符合正態分布。為了清晰觀察抽樣數據與理想分布之間的偏差情況。引入正態概率紙,其縱坐標為累積概率,是非等距刻度,橫坐標為分位數或數值,為等距刻度。
正態概率紙讓理論分位數(作橫坐標)與對應的累積概率(作縱坐標)全部落在一條直線上,通過繪制抽樣點在概率紙上的實際位置,觀察其偏離直線的程度,就可以判斷抽樣數據是否符合正態分布了。
根據十分位數的性質,根據下式可以方便的計算得到各分位數的累積概率(CDF),式中k代表分位數的次序,n代表分為數的個數。
比如第一十分位數的累積概率為
(9個十分位數將概率分布曲線積分區域(總大小為1)進行了10等分,所以負無窮到第一個點之間的面積大小為0.1)
但統計學家認為在抽樣較少的情況下,抽樣點按照分位數等概率間隔的出現是不合理的,實際情況應該是分布在兩端的數據被抽到的概率非常小,中間抽到的概率比較高,於是給出了一些分位點位置的調整方案,比如以下幾種。
以上的方案可以利用下式統一進行表示
算例
假設我們實際抽樣的9個點分別為11、15、18、27、29、35、42、46、55
計算得到這9個點的平均值為30.89,標准差
為14.93
以a的取值為0.3為例,對各理論分位數、理論累積概率CDF、理論z值、理論值等進行計算。
(tips:z值可以理解為,將數據轉化為標准正態分布后對應的點,即在標准正態分布中滿足累積概率的數值)
首先是理論值的計算:
當a值取0.3時,分位數理論累積概率CDF的計算公式為:
於是第一個分位數的理論CDF為:
理論z值的計算公式為:
式中的代表正態分布的累積分布函數的反函數,作用是求出在正態分布中滿足累積概率的數值。(即:概率分布函數從負無窮到該點的積分的大小為CDF)
通過Excel中的NORM.S.INV()函數可以方便的求出理論z值(以第一個分位數的z值計算為例)。
NORM.S.INV(0.0745)=-1.443
理論值的計算公式為:
式中為抽樣數據的平均值,
為抽樣數據的標准差,因此計算得到第一個分位數的理論值為:
30.89+(-1.443)*14.93=9.343
(tips:理論值可以理解為將z值從標准正態分布還原到抽樣數據可能服從的正態分布下的數值)
最后,根據實際值,可以計算出實際z值,其計算公式為:
因此,可以算得第一個分位數的實際z值為:
同樣的可以完成剩余其他8個點的計算,計算結果如下:
然后,就可以開始繪制正態概率圖了,以理論CDF和理論值為縱坐標和橫坐標繪制得到理論正態分布的概率圖,為一條傾斜向上的直線。
以理論CDF和實際值為縱坐標和橫坐標,在上圖中標注出實際數據的分布情況,得到下圖。
最后,將理論數據的點移除,僅保留穿過理論點的直線和實際點,就可以得到我們平時所看到的正態概率圖了。
以此類推,將上圖的縱坐標和橫坐標選擇為其他變量,我們就可以得到其他不同的Q-Q圖,比如:實際z值-理論z值、實際值-理論z值等。
Q-Q圖的使用
根據實際點在Q-Q圖中的分布形態可以推斷數據的實際分布情況,具體示例可以參看下圖。
參考鏈接
統計學與質量035 - 正態概率圖 Q-Q分位數圖 (Quantile- Quantile Plot)_嗶哩嗶哩_bilibili