非常有必要搞清楚統計學種一些常用的分布!!!
離散型隨機變量分布
1.兩點分布/伯努利分布
伯努利分布是二項分布在n=1時的特例。一次隨機試驗,成功概率為p,失敗概率為q=1-p。
2.二項分布
二項分布(Binomial distribution)是n重伯努利試驗成功次數的離散概率分布。
二項分布的典型例子是扔硬幣,硬幣正面朝上概率為p, 重復扔n次硬幣,k次為正面的概率即為一個二項分布概率。
3.超幾何分布
對N件產品(其中M件次品)進行不放回抽樣,在n次抽樣種抽到次品數X,服從超幾何分布。
4.幾何分布
X記首次成功的概率,服從幾何分布。
5.負二項分布
X記第k次成功時總的實驗次數,當k=1時,為幾何分布。
“二項分布”是固定試驗總次數N的獨立試驗中,成功次數k的分布;而“負二項分布”是所有到成功r次時即終止的獨立試驗中,失敗次數k的分布。
Negative binomial distribution
例子:
Pat is required to sell candy bars to raise money for the 6th grade field trip. There are thirty houses in the neighborhood, and Pat is not supposed to return home until five candy bars have been sold. So the child goes door to door, selling candy bars. At each house, there is a 0.4 probability of selling one candy bar and a 0.6 probability of selling nothing.
What's the probability of selling the last candy bar at the nth house?
6.泊松分布
有些事件,我們可以預估這些事件的總數,但是沒法知道具體的發生時間。
如:已知平均每小時出生3個嬰兒,請問下一個小時,會出生幾個?
如:已知所有cell中reads的總數,相當於知道均值,問下一個細胞的reads數是多少。
這些從常理上看,我們會歸為均勻分布,但現實就是泊松分布。

連續型隨機變量分布
1.均勻分布
2.指數分布
指數分布是事件的時間間隔的概率。

3.正態分布
反應誤差的最重要的分布,確定了均值和標准差就能確定一種正態分布。
參考:
伯努利分布、二項分布、多項分布、Beta分布、Dirichlet分布
數字特征
1.期望
相當於平均值
2.方差
就是方差
3.協方差
所以,我們可以定義一個表示X, Y 相互關系的數字特征,也就是協方差
cov(X, Y) = E(X-EX)(Y-EY)。
當 cov(X, Y)>0時,表明 X與Y 正相關;
當 cov(X, Y)<0時,表明X與Y負相關;
當 cov(X, Y)=0時,表明X與Y不相關。
這就是協方差的意義。
4.相關系數
翻譯一下:就是用X、Y的協方差除以X的標准差和Y的標准差。
所以,相關系數也可以看成協方差:一種剔除了兩個變量量綱影響、標准化后的特殊協方差。
5.矩
原點矩
中心矩
其他數字特征
中位數
分位數
眾數
變異系數:將離散程度標准化,等於均值除以方差
偏態系數
峰態系數
大數定律
如果實驗次數足夠大,樣本均值就會趨近於總體的期望
好吧,學概率的時候,我們總有一種潛在的潛在的觀念
——當數很大的時候平均值,就是期望值。
比如,我們投骰子,如果我們投100次,求出現的數的平均,我們覺得會差不多是(1+6)/2=3.5 因為我們按照期望計算,算出來就是3.5。
但是,這是我們一個假定,我們還需要論證,為什么當數很大的時候,平均值就是期望值呢? 這就是大數定理證明了的了。
中心極限定理
大量相互獨立的隨機變量,其均值(或者和)的分布以正態分布為極限(意思就是當滿足某些條件的時候,比如Sample Size比較大,采樣次數區域無窮大的時候,就越接近正態分布)。而這個定理amazing的地方在於,無論是什么分布的隨機變量,都滿足這個定理。



