Q-Q圖


來自:https://mp.weixin.qq.com/s/_UTKNcOgKQcCogk2C2tsQQ

 

 

 

  正負樣本數據集符合獨立同分布是構建機器學習模型的前提,從概率的角度分析,樣本數據獨立同分布是正負樣本數據從某一定的數據分布隨機抽取的,且正負樣本的分布是不一樣的。舉例來說,若我們用非洲的西瓜作為訓練集,然后用中國西瓜作為測試集,則數據集可能不滿足同分布這一前提;拋硬幣是最簡單的獨立同分布;用專業術語舉例,若數據集符合正態分布,測試集符合均勻分布,那么數據集不滿足獨立同分布這一前提。

  本文用Q-Q分析不同數據集是否為同一分布,且可以用Q-Q圖驗證數據集是否符合正太分布。

 

一、累積分布函數與分位數

 

  累積分布函數(CDF,Cumulative Distribution Function),是概率累積的過程。對某一變量X取值x,則x的累積分布函數是所有小於x值得概率相加,公式如下:

F(x) = P{X ≤ x}

  分位數(quantile)也是一種概率累計過程,如第一四分位數是累計概率達到0.25時所對應的變量值,第二四分位數是累計分布概率達到0.5時所對應的值,第三四分位數是累計分布概率達到0.75時所對應的值,公式如下:α代表累計概率所對應的變量值,分位數Zα

P(X ≤ Zα) = α;

 

二、Q-Q圖定義

 

  Q-Q圖是一種散點圖,橫坐標為某一樣本的分位數,縱坐標為另一樣本的分位數,橫坐標與縱坐標組成的散點圖代表同一個累計概率所對應的分位數。若散點圖在直線 y = x 附近分布,則這兩個樣本是同等分布;若橫坐標樣本為標准分布且散點圖在 y = x 附近分布,則縱坐標樣本符合正太分布,且直線斜率代表樣本標准差,截距代表樣本均值。

 

 

 

  如上圖左上角圖為某一數據的累計概率分布函數,右上角為標准正態分布的累計概率分布函數,對兩圖取同一累計概率對應的分位數,繪制散點圖,由圖可知,數據符合正態分布,斜率和截距分別代表數據的標准差和均值。

 

Q-Q圖中正態分布直線推導:

  若數據x是正態分布的,那么f(x)是一個正態分布的概率密度,根據正態分布的特性,數據x對應的標准正態分布函數的概率密度函數:其中m為樣本均值,std為樣本標准差

y = f((x - m) / std)

  橫坐標的數據分布是標准正態分布,概率密度函數為f(n),由QQ圖定義可知兩者一一對應的,因此有:

(x - m) / std = n;即 x = n*std + m

所以直線的斜率代表標准差,截距代表均值。

 

三、構建普通Q-Q圖

 

  普通Q-Q圖用於評估兩個數據集的分布的相似程度,如上節所說的,若散點圖在直線 y = x 附近,則兩個數據集的分布類似。普通Q-Q圖與正態Q-Q圖的不同點在於普通Q-Q圖的橫坐標是未知數據集的分位數,正態Q-Q圖的橫坐標是標准正態分布的分位數,其他步驟都一樣。

 

 

 

  由上圖可知,散點圖沒有接近一條直線,因此數據集1和數據集2來自不同的分布集。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM