常見的概率分布類型(一)(Probability Distribution I)


統計學中最常見的幾種概率分布分別是正態分布(normal distribution),t分布(t distribution),F分布(F distribution)和卡方分布(χ2 distribution, chi-square distribution),其中后三種屬於抽樣分布。

 

為什么要研究概率分布呢?因為通過研究概率分布,我們可以找出數據的分布規律,並根據這些規律來解決特定條件下的問題。比如:假設隨機變量X服從某個已知的分布,我們就可以利用這個分布對X的取值是否顯著異於分布期望值進行檢驗。

 

下面來看一下這幾種概率分布的類型:

 

正態分布又叫高斯分布(Gaussian distribution),是最為人們所熟知的分布類型

正態分布最為人們所熟知是因為在實際生活中我們經常可以看到正態分布的例子。比如男女身高,學習成績等都服從正態分布。也就是說身高和學習成績處於中游水平的人的數量最多,而身高特別高或特別矮以及成績特別好或特別差的人的數量很少(趨於0)。上圖的曲線看起來像一口鍾,因此正態分布曲線又被稱為鍾形曲線(bell curve)。

 

若隨機變量X服從一個期望為μ,方差為σ2的正態分布,那么記作X~N(μ,σ2)。正態分布的期望值μ決定了其位置,標准差σ決定了分布的幅度。正態分布的概率密度函數為

 

如果數據服從正態分布,我們可以看到大約68%的數據分布在均值的第一個標准差范圍之內,95%分布在均值的兩個標准差范圍之內,99.7%分布在均值的三個標准差范圍之內,這就是經驗法則(empirical rule)。

 

我們可以通過計算隨機變量的z值(z score),得知其距離平均值有多少個標准差。z值的計算公式為:。(其中x是隨機變量的值,μ是總體均值,σ是總體標准差)

 

當μ=0,σ=1時,正態分布就成為標准正態分布,記作N(0,1)。通過把服從正態分布的原始數據轉變為z值,其z值分布就變為標准正態分布。

 

通過查找z值表(z-table),我們可以找到z值對應的概率,此概率是z值出現的累計概率(也就是小於等於此z值的概率)。通過轉換,我們還可以知道某z值落在某個區間內的概率是多少。

(如何使用z值表可參考:http://www.z-table.com/how-to-use-z-score-table.html

 

這個應用非常有用,比如說,小明所在班級學生的某次語文成績服從正態分布,均值是85,標准差是10。如果小明考了90分,請問他的成績超過多少學生呢?

 

首先把小明的成績轉化成標准值:(90-85)/10=0.5,然后通過查找z值表或通過軟件計算P(z<=0.5)(scipy: norm.cdf(0.5)),就可以計算出小明的成績超過班上69%的學生。

 

還有一個應用就是:我們常常需要通過樣本統計量來對總體參數進行估計,比如說通過樣本均值來估算總體均值,這就需要進行抽樣。

根據中心極限定理,從總體中多次抽樣,每次抽取n>=30個樣本,只要抽樣次數足夠多,那么樣本平均數的抽樣分布就會趨近於正態分布,即~N(μ, )。

我們把這個公式轉換一下,變為,這樣計算出某樣本均值的z值,然后通過設置置信度(level of confidence),找出z值的分位數,就可以計算出總體均值的置信區間(區間估計)

 

我們在實踐中為何總是選擇使用正態分布呢?正態分布在自然界中的頻繁出現只是原因之一,還有一個重要的原因是正態分布的最大熵性質。很多時候,我們並不知道數據的真實分布是什么,我們能從數據中獲取到的比較好的知識就是均值和方差,除此之外沒有其它更加有用的信息。因此按照最大熵原理,我們應該選擇在給定的知識的限制下熵最大的概率分布,而這恰好是正態分布。因此按照最大熵的原理,由於我們對真實分布一無所知,如果數據不能有效提供除了均值和方差之外的更多的知識,即便數據的真實分布不是正態分布,那這時候正態分布就是最佳的選擇。(此段摘自正態分布的前世今生)

 

正態分布的前世今生:

http://songshuhui.net/archives/76501

http://songshuhui.net/archives/77386

 

t分布小樣本分布

在上面通過樣本統計量來對總體參數進行估計的例子中,我們經常會遇到一個問題,就是在實際應用中,總體的標准差σ往往是未知的,因此人們常用樣本標准差s作為σ的估計值。由於我們不僅需要估計總體均值,還需要估計總體標准差,因此這樣計算出來的z值不完全服從正態分布。

 

那么怎么辦呢?有個叫Gosset的人通過計算大量樣本均值和樣本均值標准差的比值,得到了這個比值的分布,叫做t分布。注意,這里假設總體服從正態分布。

 

我們按照計算z值的方式,把樣本平均數轉換成標准值,這個數值就叫做t統計量(t statistic),t統計量的分布服從t分布。t統計量的計算公式為:。(其中是隨機樣本均值,μ是總體均值,s是樣本標准差,n是樣本量)

 

t分布以0為中心,左右對稱,其形態變化與自由度ν(degrees of freedom)有關。自由度ν越小,t分布曲線越低平;自由度ν越大,t分布曲線越接近標准正態分布曲線。(自由度指在數據集中能自由變化的觀察值的數量,對於某個抽樣樣本來說,其自由度等於樣本中的觀察值數量減一,即v=n-1)

 

我們發現,當樣本量接近30時,t分布開始逐漸接近標准正態分布(中心極限定理)。因此,t分布被廣泛使用,因為其不管對於小樣本或者大樣本都是正確的,而正態分布只對大樣本正確。在實際使用中,我們通常都使用t檢驗,因為t分布雖然近似正態分布,但兩者仍然是不同的。t分布和正態分布的區別在於t分布的厚尾性。t分布能夠很好的消除異常值帶來的標准差波動。

通過自由度(v)和設置置信度(1-α),在t值表(t-table)上查找出對應的t值,然后可以計算出在這個置信度下(比如95%),總體均值的置信區間(區間估計)。

 

t分布的發現:

http://www.360doc.com/content/16/1101/21/36719146_603220801.shtml

https://blog.csdn.net/lengxiao1993/article/details/81985399

 

卡方分布

 

假設O代表某個樣本中某個類別的觀察頻數,E代表基於零假設計算出的期望頻數,O與E之差稱為殘差。殘差可以表示某一個類別變量觀察值和期望值的偏離程度。但因為殘差有正有負,相加后會彼此抵消,因此不能將殘差簡單相加以表示觀察頻數與期望頻數的差別,為此可以將殘差進行平方然后求和。另一方面,殘差的大小是一個相對的概念。當期望頻數為10時,殘差為20顯得較大,但當期望頻數為1000時,20的殘差就很小了。考慮到這一點,人們又將殘差平方除以期望頻數。對於多個觀察值,只要將這些殘差平方相加,得到的數值就是χ2值(χstatistic),χ2值服從卡方分布。χ2值的計算公式為:

 

卡方分布的正式定義:若k個相互獨立的隨機變量服從標准正態分布N(0,1)(也稱獨立同分布於標准正態分布),則這k個服從標准正態分布的隨機變量的平方和構成一個新的隨機變量,其分布稱為卡方分布(chi-square distribution),自由度為k。

 

從卡方分布圖可以看出:卡方值都是正值,呈右偏態,隨着自由度k的增大,其分布趨近於正態分布。(卡方分布的極限就是正態分布)

 

卡方分布主要用於卡方檢驗。主要有兩種檢驗目的,一種是檢驗樣本中各個類別的觀察值與期望值是否有顯著的不同(goodness of fit),另一種是檢驗樣本中兩個類別之間是否相互獨立(independence)。

 

卡方檢驗的例子:

https://www.jianshu.com/p/807b2c2bfd9b

 

F分布

 

t檢驗可以用來檢驗單個樣本的均值是否和總體一致,或者檢驗兩個總體的均值是否一致。那么如果我們需要檢驗兩個以上的總體均值是否一致該怎么辦呢?為此,Fisher創造出了方差分析(analysis of variance,ANOVA),通過分析多個樣本的方差來檢驗這幾個樣本的均值是否相同。

 

將多個樣本之間的方差(組間方差)除以樣本內部的方差(組內方差),得出的比率被稱為F值(F Ratio),F值服從F分布。F值的計算公式為:。(其中是總均值,,k是樣本數量,N是k個樣本的總觀察值的數量)

 

如果組間方差和組內方差相差不大,那么F值應該在1附近,說明這些樣本的均值是一致的;如果F值遠遠大於1,那么說明不是所有的樣本均值都是一致的。

 

F分布的正式定義:假設X、Y為兩個獨立的隨機變量,X服從自由度為n的卡方分布,Y服從自由度為m的卡方分布,這兩個獨立的卡方分布除以各自的自由度以后的比率服從F分布。

 

F分布是一種非對稱分布,它有兩個自由度,即n-1和m-1,相應的分布記為F(n–1,m-1), n-1通常稱為分子自由度, m-1通常稱為分母自由度。不同的自由度決定了F分布的形狀。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM