各類分布----二項分布,泊松分布,負二項分布,gamma 分布,高斯分布,學生分布,Z分布


伯努利實驗:

如果無窮隨機變量序列  是獨立同分布(i.i.d.)的,而且每個隨機變量  都服從參數為p的伯努利分布,那么隨機變量  就形成參數為p的一系列伯努利試驗。同樣,如果n個隨機變量  獨立同分布,並且都服從參數為p的伯努利分布,則隨機變量  形成參數為p的n重伯努利試驗。

伯努利試驗是只有兩種可能結果的單次隨機試驗。

  • 如果試驗E是一個伯努利試驗,將E獨立重復地進行n次,則稱這一串重復的獨立試驗為n重伯努利試驗

 

一、伯努利分布:

伯努利分布亦稱“零一分布”、“兩點分布”。稱隨機變量X有伯努利分布, 參數為p(0<p<1),如果它分別以概率p和1-p取1和0為值。EX= p,DX=p(1-p)。伯努利試驗成功的次數服從伯努利分布,參數p是試驗成功的概率。伯努利分布是一個離散型機率分布,是N=1時二項分布的特殊情況,為紀念瑞士科學家詹姆斯·伯努利(Jacob Bernoulli 或James Bernoulli)而命名。

 

例子:假定重復拋擲一枚均勻硬幣,如果在第i次拋擲中出現正面,令  ;如果出現反面,令  ,那么,隨機變量  就形成參數為  的一系列伯努利試驗,同樣,假定由一個特定機器生產的零件中10%是有缺陷的,隨機抽取n個進行觀測,如果第i個零件有缺陷,令 ;如果沒有缺陷,令  ,那么,隨機變量  就形成參數為  的n重伯努利試驗 (百度百科)

E(X)=p, E(X2)=q , Var(X)=pq

二、二項分布:

n 次Bernoulli試驗的結果中,每次試驗的分布不變,結果為1的次數 X 的分布。就是重復n次的伯努利實驗

在概率論和統計學里面,帶有參數n和p的二項分布表示的是n次獨立試驗的成功次數的概率分布。在每次獨立試驗中只有取兩個值,表示成功的值的概率為p,那么表示試驗不成功的概率為1-p。這樣一種判斷成功和失敗的二值試驗又叫做伯努利試驗

特殊地,當n=1的時候,我們把二項分布稱為伯努利分布。

 

如果
1.在每次試驗中只有兩種可能的結果,而且是互相對立的;
2.每次實驗是獨立的,與其它各次試驗結果無關;
3.結果事件發生的概率在整個系列試驗中保持不變,則這一系列試驗稱為伯努利實驗。
在這試驗中,事件發生的次數為一隨機事件,它服從二次分布
 
三、超幾何分布:

超幾何分布,n 次伯努利試驗,每次試驗分布發生改變,結果為1的次數 X  的分布,當試驗分布變化不大的時候和二項分布結果相同
它描述了從有限N個物件(其中包含M個指定種類的物件)中抽出n個物件,成功抽出該指定種類的物件的次數(不放回

四、泊松分布
泊松分布就是描述某段時間內,事件具體的發生概率。
泊松分布的概率函數為:

 泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發生次數。 泊松分布適合於描述單位時間內隨機事件發生的次數

k事件X發生的頻數;P(X=k)事件X發生k次的概率

泊松分布的期望和方差均為  

特征函數為 

當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算,當n趨近於無窮的時候等同於二項分布。

五、多項分布

是二項式分布的推廣。二項式做n次伯努利實驗,規定了每次試驗的結果只有兩個,如果現在還是做n次試驗,只不過每次試驗的結果可以有多m個,且m個結果發生的概率互斥且和為1,則發生其中一個結果X次的概率就是多項式分布。

扔骰子是典型的多項式分布。扔骰子,不同於扔硬幣,骰子有6個面對應6個不同的點數,這樣單次每個點數朝上的概率都是1/6(對應p1~p6,它們的值不一定都是1/6,只要和為1且互斥即可,比如一個形狀不規則的骰子),重復扔n次,如果問有k次都是點數6朝上的概率。

 

六、負二項分布

一種離散概率分布。滿足以下條件的稱為負二項分布:實驗包含一系列獨立的實驗, 每個實驗都有成功、失敗兩種結果,成功的概率是恆定的,實驗持續到r次成功,r為正整數

r是整數時,負二項分布又稱帕斯卡分布(巴斯卡分布),其概率質量函數為(其中一種形式,兩種形式對比看下文):
它表示,已知一個事件在伯努利試驗中每次的出現概率是p,在一連串 伯努利試驗中,一件事件剛好在第r + k次試驗出現第r次的概率。
參數為(r, p)的負二項分布的數列k+r的期望是   。

七、gamma分布

是統計學的一種連續概率函數。

gamma函數定義:

Γ(x) = ∫0 tx-1 e-t dt                      Γ(x+1) = x Γ(x);              Γ(x+1) = x!      

Gamma分布中的參數α稱為形狀參數(shape parameter),β稱為逆尺度參數(scale parameter)

假設隨機變量X為等到第α件事發生所需之等候時間, 密度函數為
               
特征函數為
 
伽馬分布的概率密度函數和失效率函數取決於形狀參數
 
的數值。
   
時,
 
為遞減函數;
   
時,
   
為遞增函數;
當   時,
   
為單峰函數;
Gamma的可加性
兩個獨立隨機變量X和Y,且X~Ga(a,γ),Y~Ga(b,γ),則Z = X+Y ~ Ga(a+b,γ)。注意X和Y的尺度參數必須一樣。
Gamma分布的特殊形式
當形狀參數α=1時,伽馬分布就是參數為γ的指數分布,X~Exp(γ)
當α=n/2,β=1/2時,伽馬分布就是自由度為n的卡方分布,X^2(n)
β=n,Γ(n,α)就是Erlang分布。Erlang分布常用於可靠性理論和 排隊論中 ,如一個復雜系統中從第 1 次故障到恰好再出現 n 次故障所需的時間;從某一艘船到達港口直到恰好有 n 只船到達所需的時間都服從 Erlang分布;

八、指數分布

指數分布是事件的時間間隔的概率。如:

  • 嬰兒出生的時間間隔

  • 來電的時間間隔

  • 奶粉銷售的時間間隔

  • 網站訪問的時間間隔

是描述泊松過程中的事件之間的時間的概率分布,即事件以恆定平均速率連續且獨立地發生的過程。 這是伽馬分布的一個特殊情況,它是幾何分布的連續模擬,它具有無記憶的關鍵性質。

指數函數的一個重要特征是無記憶性(Memoryless Property,又稱遺失記憶性)。這表示如果一個隨機變量呈指數分布,當s,t>0時有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的壽命,已知元件使用了t小時,它總共使用至少s+t小時的條件概率,與從開始使用時算起它使用至少s小時的概率相等。

 

期望值 方差                若隨機變量x服從參數為λ的指數分布,則記為  。

九、卡方分布

若n個相互獨立的隨機變量ξ₁,ξ₂,...,ξn ,均服從標准正態分布(也稱獨立同分布於標准正態分布),則這n個服從標准正態分布的隨機變量的平方和 構成一新的隨機變量,其分布規律稱為卡方分布(chi-square distribution)。其中參數  稱為自由度。記為  或者  (其中    為限制條件數)。

卡方分布是由正態分布構造而成的一個新的分布,當自由度 很大時,  分布近似為正態分布。

1)  分布在第一象限內,卡方值都是正值,呈正偏態(右偏態),隨着參數  的增大,  分布趨近於正態分布;卡方分布密度曲線下的面積都是1.

2)  分布的均值與方差可以看出,隨着自由度 的增大,χ2分布向正無窮方向延伸(因為均值  越來越大),分布曲線也越來越低闊(因為方  越來越大)。

 

3)不同的自由度決定不同的卡方分布,自由度越小,分布越偏斜。
4) 若   互相獨立,則:
   
服從
   
分布,自由度為
   
5)   分布的均數為自由度
 
,記為 E(
  
) =
  
6)   分布的方差為2倍的自由度(
  
),記為 D(
  
) =
  

 

十、Beta分布

B函數,又稱為Beta函數或者第一類歐拉積分,是一個作為伯努利分布和二項式分布的共軛先驗分布的密度函數,是指一組定義在(0,1) 區間的連續概率分布,定義如下:

有兩個參數  

Β分布的 概率密度函數是:
 
其中  
Γ函數。隨機變量X服從參數為
 
的Β分布通常寫作
 
Β分布的 累積分布函數 [1]  :
 
其中
 
是不完全Β函數,
  
是正則不完全貝塔函數。
 
Beta分布與Gamma分布的關系為:

實例:

空氣中含有的氣體狀態的水分。表示這種水分的一種辦法就是相對濕度。即現在的含水量與空氣的最大含水量( 飽和含水量)的比值。我們聽到的天氣預告用語中就經常使用相對濕度這個名詞。
相對濕度的值顯然僅能出現於0到1之間(經常用百分比表示)。而空氣為什么出現某個相對濕度顯然具有隨機性(可以利用 最復雜原理),這些提示我們空氣的相對濕度可能符合貝塔分布。

十一、幾何分布

是離散型概率分布。在n次伯努利試驗中,試驗k次才得到第一次成功的機率。詳細地說,是:前k-1次皆失敗,第k次成功的概率。幾何分布是帕斯卡分布當r=1時的特例。

在伯努利試驗中,記每次試驗中事件A發生的概率為p,試驗進行到事件A出現時停止,此時所進行的試驗次數為X,其分布列為:
此分布列是幾何數列的一般項,因此稱X服從幾何分布,記為X ~ GE(p) 。
實際中有不少隨機變量服從幾何分布,譬如,某產品的不合格率為0.05,則首次查到不合格品的檢查次數X ~ GE(0.05) 。
它分兩種情況:
(1)為得到1次成功而進行n次 伯努利試驗,n的 概率分布,取值范圍為1,2,3,...;
這種情況的期望和方差如下:
(2)m = n-1次失敗,第n次成功,m的概率分布,取值范圍為0,1,2,3,...。
這種情況的期望和方差如下:
比如,假設不停地擲 骰子,直到得到 1。投擲次數是隨機分布的,取值范圍是無窮集合{ 1, 2, 3, ... },並且是一個 p= 1/6的幾何分布。

十二、學生分布(t分布)

用於根據小樣本來估計呈正態分布且方差未知的總體的均值。如果總體方差已知(例如在樣本數量足夠多時),則應該用正態分布來估計總體均值。

t分布曲線形態與n(確切地說與自由度df)大小有關。與標准正態分布曲線相比,自由度df越小,t分布曲線愈平坦,曲線中間愈低,曲線雙側尾部翹得愈高;自由度df愈大,t分布曲線愈接近正態分布曲線,當自由度df=∞時,t分布曲線為標准正態分布曲線。

由於在實際工作中,往往σ是未知的,常用s作為σ的估計值,為了與u變換區別,稱為t變換,統計量t 值的分布稱為t分布。 [1] 
假設X服從標准正態分布N(0,1),Y服從   分布,那么
  
的分布稱為自由度為n的t分布,記為
  
分布密度函數
   
其中,Gam(x)為伽馬函數。

十三、正態分布

正態曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鍾形,因此人們又經常稱之為 鍾形曲線
隨機變量X服從一個 數學期望為μ、 方差為σ^2的正態分布,記為N(μ,σ^2)。其 概率密度函數為正態分布的 期望值μ決定了其位置,其 標准差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是 標准正態分布

十四、狄利克雷分布

狄利克雷分布(Dirichlet distribution)是多項分布的共軛分布,也就是它與多項分布具有相同形式的分布函數。同時可以看做是將Beta分布推廣到多變量的情形。一類在實數域以正單純形(standard simplex)為支撐集(support)的高維連續概率分布,是Beta分布在高維情形的推廣。

對獨立同分布(independent and identically distributed, iid)的連續隨機變量  支撐集 ,若 服從狄利克雷分布,則其概率密度函數

 

  

有如下定義 [1]  

 

 
式中,  無量綱的分布參數,
  

是分布參數的和,

  

是多元Beta函數(multivariate beta function),

  

Gamma函數。由上述解析形式可知,狄利克雷分布是指數族分布 [1]  

 

應用

貝葉斯推斷中,狄利克雷分布作為多項分布的共軛先驗,被用於 多項分布二項分布和類型分布(categorical distribution)的參數估計  [1]  。在機器學習領域,狄利克雷分布和廣義狄利克雷分布被應用於構建混合模型(mixture model)以處理高維的聚類和特征賦權(feature weighting)等非監督學習問題 [21]  。使用狄利克雷分布建立的主題模型(topic model),即隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)被應用於自然語言處理(Natural Language Processing, NLP)和生物信息學研究(bioinfomatics)

泊松分布和負二項分布用途區分

https://www.jianshu.com/p/ad24bb90b972
---------------------
原文:https://blog.csdn.net/tonyshengtan/article/details/82947416

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM