隨機變量概率分布函數匯總
一、總結
一句話總結:
概率分布用以表達隨機變量取值的概率規律,根據隨機變量所屬類型的不同,概率分布取不同的表現形式
離散型分布:二項分布、多項分布、伯努利分布、泊松分布
連續型分布:均勻分布、正態分布、指數分布、伽瑪分布、偏態分布、貝塔分布
1、伯努利分布?
【成功和失敗的概率不一定相等】:伯努利分布只有兩種可能的結果,1-成功和0-失敗,具有伯努利分布特征的隨機變量X可以取值為1的概率為p,取值為0的概率1-p,其中成功和失敗的概率不一定相等
2、均勻分布?
【均勻分布所有可能結果的n個數的發生概率是相等的】:均勻分布變量X的概率密度函數([概率密度函數]概念是針對連續分布的,求積分即發生概率)為
3、伯努利分布和二項分布的關系?
1、【伯努利分布是二項分布的單次試驗的特例】,即單次二項分布試驗
2、二項分布和伯努利分布的每次試驗都【只有兩個可能的結果】
3、二項分布每次試驗都是互相獨立的,【每一次試驗都可以看作一個伯努利分布】
4、泊松分布?
【大量事件是有固定頻率的】。特點:可以預估這些事件的總數,但是沒法知道具體的發生時間和發生地點。已知平均每小時出生3個嬰兒,請問下一個小時,會出生幾個?
【泊松分布即描述某段時間內,事件具體的發生頻率】
5、泊松分布的主要特點?
【計數過程】:泊松分布是個計數過程,通常用於模擬一個非連續事件在連續時間中的發生次數
【成功事件互不影響】:任何一個成功事件不能影響其它的成功事件(N(t+s)-N(t)增量之間互相獨立)
【長短時間成功概率相等】:經過短時間間隔的成功概率必須等於經過長時間間隔的成功概率
【無窮小時成功概率趨近零】:時間間隔趨向於無窮小的時候,一個時間間隔內的成功概率趨近零
6、指數分布?
【指數分布是事件的時間間隔的概率】。例如嬰兒出生的時間間隔、來電的時間間隔、奶粉銷售的時間間隔、網站訪問的時間間隔
【指數分布的公式可以從泊松分布推斷出來】。
7、正態分布和二項分布的關系&正態分布和泊松分布的關系?
以下條件下,【正態分布是二項分布的一種極限形式】:1.試驗次數非常大或者趨近無窮,即n→∞;2.p和q都不是無窮小
參數λ→∞的時候,【正態分布是泊松分布的極限形式】
指數分布和泊松分布的關系:如果隨機事件的時間間隔服從參數為λ的指數分布,那么在時間周期t內事件發生的總次數服從泊松分布,相應的參數為λt
8、以下條件下,泊松分布是二項分布的極限形式?
1.試驗次數非常大或者趨近無窮,即n→∞;
2.每次試驗的成功概率相同且趨近零,即p→0;
3.np=λ是有限值
二、隨機變量概率分布函數匯總-離散型分布+連續型分布(轉)
轉自:隨機變量概率分布函數匯總-離散型分布+連續型分布
https://blog.csdn.net/kwame211/article/details/81167082
概率分布用以表達隨機變量取值的概率規律,根據隨機變量所屬類型的不同,概率分布取不同的表現形式
離散型分布:二項分布、多項分布、伯努利分布、泊松分布
連續型分布:均勻分布、正態分布、指數分布、伽瑪分布、偏態分布、貝塔分布
一.伯努利分布
伯努利分布只有兩種可能的結果,1-成功和0-失敗,具有伯努利分布特征的隨機變量X可以取值為1的概率為p,取值為0的概率1-p,其中成功和失敗的概率不一定相等

成功的概率=0.15,失敗的概率=0.85,來自伯努利分布的隨機變量X的期望值如為:E(X)=1*p+0*(1-p)=p;隨機變量與二項分布的方差為:V(X)=E(X²)–[E(X)]² =p–p²
二.均勻分布
均勻分布所有可能結果的n個數的發生概率是相等的,均勻分布變量X的概率密度函數([概率密度函數]概念是針對連續分布的,求積分即發生概率)為:


均勻分布密度函數曲線的形狀是一個矩形,這也是均勻分布又稱為矩形分布的原因,a和b是參數。例子:花店每天銷售的花束數量是均勻分布的,最多為40,最少為10,計算日銷售量在15到30之間的概率(即密度函數曲線下的面積):(30-15)*(1/(40-10))=0.5。遵循均勻分布的變量X的期望和方差為:(a+b)/2、(b-a)^2/12
三.二項分布
二項分布的每一次嘗試都是獨立的,前一次投擲的結果不能決定或影響當前投擲的結果,只有兩個可能結果並且重復n次的實驗叫做二項式。二項分布的參數是n和p,其中n是試驗的總數,p是每次試驗成功的概率。n次獨立重復事件發生k次的概率為:

均值和方差:np、npq
-
#R對應的函數形式,其他分布的函數同理 -
dbinom(x, size, prob) #每個點對應的概率密度值(即發生概率值) -
pbinom(x, size, prob) #事件的累計概率值 -
qbinom(p, size, prob) #給出累計值(與p概率值匹配)的數字 -
rbinom(n, size, prob) #從樣本產生概率生成所需數量的概率值
四.多項分布
多項分布是二項分布的推廣擴展,在n次獨立實驗中每次只輸出k種結果中的一個,且每種結果都有一個確定概率,多項分布給出在多種輸出狀態的情況下,關於成功次數的各種組合的概率
舉個例子,投擲n次骰子,這個骰子共有6種結果輸出,且1點出現概率為p1,2點出現概率p2,…多項分布給出了在n次試驗中,骰子1點出現x1次,2點出現x2次,3點出現x3次,…,6點出現x6次。這個結果組合的概率公式為:

xi為第i種狀態輸出結果的頻度,根據多項分布的極大似然估計得

五.正態分布
正態分布的特征:1.分布的平均值、中位數和模式一致;2.分布曲線是鍾形的,關於線x=μ對稱;3.曲線下的總面積為1;4.兩個正態分布之積仍為正態分布;5.兩個獨立且服從正態分布的隨機變量的和服從正態分布
若隨機變量X服從位置參數
尺度參數
的概率分布(N(
,
)),且其概率密度函數為:

正態曲線下橫軸上一定區間的面積反映該區間的例數占總例數的百分比,或變量值落在該區間的概率
“小概率事件”通常指發生概率小於5%的事件(認為在一次實驗中幾乎不可能發生),X落在3倍標准差以外的概率小於3%,在實際問題中常認為相應的事件不會發生,
看作是隨機變量X實際可能的取值區間(3
法則)
六.偏態分布
偏態分布(特點是左右不對稱,頻數分布的高峰位於一側,尾部向另一側延伸)與正態分布相對,是連續隨機變量概率分布的一種,可通過峰度和偏度的計算,衡量偏態程度
正偏態分布(右偏分布):M>Me>Mo(平均數>中位數>眾數)

負偏態分布(左偏分布):M<Me<Mo(平均數<中位數<眾數)

分組下的眾數(均值大於眾數為右偏分布,均值小於眾數為左偏分布):在組距分組的情況下,眾數計算需考慮最大頻數所在組相鄰組的情況

L最大頻數所在組的下限值,d為最大頻數所在組的組距,
為最大頻數所在組頻數與上組頻數之差,
為最大頻數所在組頻數與下組頻數之差
七.泊松分布
大量事件是有固定頻率的。特點:可以預估這些事件的總數,但是沒法知道具體的發生時間和發生地點。已知平均每小時出生3個嬰兒,請問下一個小時,會出生幾個?
泊松分布的主要特點:
泊松分布是個計數過程,通常用於模擬一個非連續事件在連續時間中的發生次數
1.任何一個成功事件不能影響其它的成功事件(N(t+s)-N(t)增量之間互相獨立)
2.經過短時間間隔的成功概率必須等於經過長時間間隔的成功概率
3.時間間隔趨向於無窮小的時候,一個時間間隔內的成功概率趨近零
泊松分布即描述某段時間內,事件具體的發生頻率。泊松分布的概率分布函數公式如下所示

等號左邊P表示概率,N表示某種函數關系,t表示時間,n表示數量,1小時內出生3個嬰兒的概率,就表示為 P(N(1)=3)等號的右邊,λ表示事件的頻率(如平均每小時出生3個)
表示長度為t的時間間隔中的平均事件數(
為事件的發生率),泊松分布的均值和方差均為
八.指數分布
指數分布是事件的時間間隔的概率。例如嬰兒出生的時間間隔、來電的時間間隔、奶粉銷售的時間間隔、網站訪問的時間間隔
指數分布的公式可以從泊松分布推斷出來。如果下一個嬰兒出生要間隔時間t,就等同於t之內沒有任何嬰兒出生

反過來,事件在時間t之內發生的概率,就是1減去上面的值

指數分布的圖形大體如下:隨着間隔時間變長,時間的發生概率急劇下降,呈現指數式衰減

九.伽瑪分布
Gamma分布即多個獨立且相同分布的指數分布變量和的分布,
即從頭開始到第n次事件的發生時間

十.貝塔分布
貝塔分布可以看作是一個描述概率p(定義在區間(0,1))的連續概率分布,當不知道某個具體事件的發生概率時,貝塔分布可以給出所有概率出現的可能性大小
具體實例幫助理解概念:棒球擊球率(batting average)-用一個運動員擊中的球數除以擊球的總數,我們一般認為0.266是正常水平的擊球率,而如果擊球率高達0.3就被認為是非常優秀的。現在有一個棒球運動員,希望能預測他在這一賽季中的棒球擊球率是多少,但是如果這個棒球運動員只打了一次且命中,那么擊球率是100%,這顯然是不合理的,因為根據棒球的歷史信息知道這個擊球率應該是0.215到0.36之間才對。對於這個問題,可以用一個二項分布表示(一系列成功或失敗),一個最好的方法來表示這些經驗(即先驗信息)就是用beta分布,表示在沒有看到這個運動員打球之前就有了一個大概的范圍。beta分布的定義域是(0,1)這就跟概率的范圍是一樣的
將這些先驗信息轉換為beta分布的參數,知道一個擊球率應該是平均0.27左右,而他的范圍是0.21到0.35,那么根據這個信息,我們可以取α=81,β=219
之所以取這兩個參數是因為:
beta分布的期望均值是α/(α+β)=81/(81+219)=0.27
從圖中可以看到這個分布主要落在了(0.2,0.35)間,這是從經驗中得出的合理的范圍
beta分布的概率密度函數(體現了beta分布與gamma分布的關系)

有了先驗信息,現在考慮運動員只打一次球,那么他現在的數據就是”1中1擊”。這時候就可以更新分布了,讓這個曲線做一些移動去適應新信息。beta分布在數學上就給我們提供了這一性質,他與二項分布是共軛先驗。所謂共軛先驗就是先驗分布是beta分布,而后驗分布同樣是beta分布。結果很簡單:
beta(a+hits,b+misses)
其中a和b是一開始的參數,在這里是81和219。在這一例子里a增加了1(擊中了一次)。β沒有增加(沒有漏球)。這就是新的beta分布Beta(81+1,219),beta分布的概率密度函數曲線可能會變得更加陡峭或平穩
十一.狄利克雷分布
狄利克雷分布是beta分布在多項情況下的推廣,也是多項分布的共軛先驗分布,狄利克雷分布的概率密度函數如下

十二.共軛先驗分布
共軛是選取一個函數作為似然函數的先驗概率分布,使得后驗分布函數和先驗分布函數形式一致(Beta分布是二項式分布的共軛先驗概率分布,而狄利克雷分布(Dirichlet分布)是多項式分布的共軛先驗概率分布)
貝葉斯規則:后驗分布=似然函數*先驗概率分布
十三.分布之間的關系
伯努利分布和二項分布的關系:
1.伯努利分布是二項分布的單次試驗的特例,即單次二項分布試驗
2.二項分布和伯努利分布的每次試驗都只有兩個可能的結果
3.二項分布每次試驗都是互相獨立的,每一次試驗都可以看作一個伯努利分布
泊松分布和二項分布的關系:
以下條件下,泊松分布是二項分布的極限形式:
1.試驗次數非常大或者趨近無窮,即n→∞;
2.每次試驗的成功概率相同且趨近零,即p→0;
3.np=λ是有限值
正態分布和二項分布的關系&正態分布和泊松分布的關系:
以下條件下,正態分布是二項分布的一種極限形式:
1.試驗次數非常大或者趨近無窮,即n→∞;
2.p和q都不是無窮小
參數λ→∞的時候,正態分布是泊松分布的極限形式
指數分布和泊松分布的關系:
如果隨機事件的時間間隔服從參數為λ的指數分布,那么在時間周期t內事件發生的總次數服從泊松分布,相應的參數為λt
