如何判斷數據是否滿足正態分布


方法:P-P圖、Q-Q圖、DW檢驗(杜賓-瓦特森檢驗)

Q-Q圖

分位數圖示法(Quantile Quantile Plot,簡稱 Q-Q 圖)

統計學里Q-Q圖(Q代表分位數)是一個概率圖,用圖形的方式比較兩個概率分布,把他們的兩個分位數放在一起比較。首先選好分位數間隔。圖上的點(x,y)反映出其中一個第二個分布(y坐標)的分位數和與之對應的第一分布(x坐標)的相同分位數。因此,這條線是一條以分位數間隔為參數的曲線。如果兩個分布相似,則該Q-Q圖趨近於落在y=x線上。如果兩分布線性相關,則點在Q-Q圖上趨近於落在一條直線上,但不一定在y=x線上。Q-Q圖可以用來可在分布的位置-尺度范疇上可視化的評估參數。
從定義中可以看出Q-Q圖主要用於檢驗數據分布的相似性,如果要利用Q-Q圖來對數據進行正態分布的檢驗,則可以令x軸為正態分布的分位數,y軸為樣本分位數,如果這兩者構成的點分布在一條直線上,就證明樣本數據與正態分布存在線性相關性,即服從正態分布

P-P圖

P-P圖是根據變量的累積概率對應於所指定的理論分布累積概率繪制的散點圖,用於直觀地檢測樣本數據是否符合某一概率分布。如果被檢驗的數據符合所指定的分布,則代表樣本數據的點應當基本在代表理論分布的對角線上。
由於P-P圖和Q-Q圖的用途完全相同,只是檢驗方法存在差異。要利用QQ圖鑒別樣本數據是否近似於正態分布,只需看QQ圖上的點是否近似地在一條直線附近,而且該直線的斜率為標准差,截距為均值.

具體用python作圖步驟

1、將樣本數據從小到大排序,假設排序后的樣本數據為\(x_{1}\),\(x_{2}\),\(x_{3}\),...,\(x_{n}\).

2、對於\(n\)個樣本數據,對應\(n\)個分位數。分位數的取值規則不一樣,一個比較簡答的規則是:第\(k\)個分位數的取值為\(Q_{k} = ( k − 0.5 )/n\).

3、橫坐標為:\(x_{1}\),\(x_{2}\),\(x_{3}\),\(\dots\)\(x_{n}\),縱坐標為:所判斷分布的累計分布函數在分位數的逆函數值 \(F−(Q_{k} )\),則為 QQ 圖;若橫坐標為:\(F_(x_{1})\),\(F(x_{2})\),\(F(x_{3})\),\(\dots\),\(F(x_{n})\),縱坐標為:\(Q_{k}\) ,則為 PP 圖。

PP 圖與 QQ 圖的功能基本一樣,我見用 QQ 圖的比較多。因為分位數的取值規則不一樣,因此 QQ 圖可能畫的不太一樣。

下面以正態分布的隨機樣本為例,用 python 畫一下圖形,專門的 QQ 圖也可以調用 statsmodels 中的 ProbPlot 函數 (不是 scipy 中的 probplot,因為 scipy 中的 probplot 畫的直線是擬合直線,並不是45度斜線)。

from scipy import stats
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

df = [33,23,35,35.5,26,32.3,41,29,38.5,42,31,54.2,43,
      34,26.5,27,37,40.1,30,39.5,28,36.5,43,45,31,
      46.3,42.8,52.1,49,49,40,52.7,39,48.1,35,58,
      32,31.5,37,28,19,34.3,38,59.5,32.8,43,33,50,48,46]
sorted_ = np.sort(df)
yvals = np.arange(len(sorted_))/float(len(sorted_))
x_label = stats.norm.ppf(yvals)  #對目標累計分布函數值求標准正太分布累計分布函數的逆
plt.style.use('ggplot')
stats.probplot(df, dist="norm",plot=plt)  #畫QQ圖
plt.show()

image

紅色線條表示正態分布,藍色線條表示樣本數據,藍色越接近紅色參考線,說明越符合預期分布(這是是正態分布)

Q-Q圖是通過比較數據和正態分布的分位數是否相等來判斷數據是不是符合正態分布

由於 ProbPlot 的分位數取值規則不同,ProbPlot 的QQ圖與自己畫的QQ圖略微不一樣

小樣本使用SW檢驗,大樣本使用K-S檢驗。K-S檢驗可以做修正來減小樣本偏差,修正具體是實際和理論概率累積量的max偏差值與零相比。
用QQ圖還可獲得樣本偏度和峰度的粗略信息.

參考網頁
https://www.cnblogs.com/king-lps/p/7840268.html
https://www.cnblogs.com/yuanjingnan/p/11668547.html
https://blog.csdn.net/robert_chen1988/article/details/106278793
https://blog.csdn.net/lvla_juan/article/details/97235734


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM