1.離解數據與離散分布
離解數據通常是那些只能用整數表現的數據。比如某省的人口數,宇宙中單位體積內的星球個數等。
1.1統計中常見的描述離散型數據的離散分布:
1.退化分布:一個隨機變量X以概率1取某一常數,即 P{X=a}=1,則稱X服從a處的退化分布。確定分布。
2.
兩點分布
:一個隨機變量只有兩個可能取值, 設其分布為 P
{X=x1}=p, P{X=x2}=1-p, 0<p<1,則稱X服從x1, x2處參數為p的兩點分布。
當如果X只取0, 1兩個值, 其概率分布為P{X=1}=p, P{X=0}=1-p, 0<p<1。則稱X服從參數為p的0-1分布, 也稱X是參數為p的伯努利隨機變量. 此時EX=p, DX=p(1-p)。【拋一枚硬幣】
3.n個點上的均勻分布:
設隨機變量X取n個沒不同的值,且其概率分布為
P{X=xi}=1/n,(i=1,2,3,...,n),則稱X服從n個點{x1,x2,...,xn}上的均勻分布。【拋一枚骰子】
古典概型中經常出現此類分布情形。
4.二項分布:n重伯努利試驗,成功k次的概率分布。
【判斷是否為伯努利試驗的關鍵是每次試驗事件A的概率不變,並且每次試驗的結果同其他各次試驗的結果無關,重復是指試驗為一系列的試驗,並非一次試驗,而是多次,但要注意重復事件發生的概率相互之間沒有影響。】
5.幾何分布:n次伯努利
實驗中,A為發生事件,設X為直到發生事件A為止所進行的實驗次數。【在袋子中直到摸到一個紅球的所摸的次數】
6.超幾何分布:一個袋子中共裝有
N個球, 其中N1個白球, N2個黑球, 從中不放回地抽取n個球, X表示取到白球的數目, 那么X的分布為

7.泊松分布:
電話交換台在一給定時間內收到用戶的呼叫次數,售票口到達的顧客人數,保險公司在一給定時期內被索賠的次數,某一服務設施在一定時間內到達的人數,汽車站台的候客人數,機器出現的故障數,自然災害發生的次數,一塊產品上的缺陷數,顯微鏡下單位分區內的細菌分布數等均可近似地用泊松分布來描述。事件以固定的概率λ【平均瞬時速率λ(或稱密度)】隨機且獨立地出現時,那么這個事件在單位時間(面積或體積)內出現的次數或個數就近似地服從泊松分布。泊松分布是二項分布的條件放寬,對中n趨近無窮時的推導出來的!對泊松分布的理解參見阮一峰對泊松分布的理解。
1.2離散分布之間的聯系
二項分布,幾何分布和帕斯卡分布(負二項分布)都是基於獨立的伯努利試驗。
二項分布:描述在給定的n次試驗中成功x次的概率
幾何分布:描述 第一次成功發生在第x次的概率帕斯卡分布:負二項分布的正整數形式,描述已知一個事件在伯努利試驗中每次的出現概率是p,在一連串伯努利試驗中,一件事件剛好在第r + k次試驗出現第r次的概率,因此幾何分布是n=1的帕斯卡分布特例
超幾何分布:描述的是總體有限的
無放回抽樣問題。總體有N個個體,其中具有某一特點的個體有M個,如果從中抽取n個,其中帶有這一特點的樣本為x個的概率。超幾何分布中我們常常希望推斷的是N(已知M)或者M(已知N)。例如要知道河里有多少魚,可以打撈M條做標記,過段時間認為這些做了標記的魚都均勻分散在水中以后,再打撈n條,其中具有帶有標記的魚為m條,推斷魚的總數N。
超幾何分布 V.S. 二項分布: 兩者都是抽樣,只不過超幾何分布是無放回抽樣,二項分布是有放回抽樣。當超幾何分布中N很大,而n很小時,無放回抽樣可以近似得看成有放回抽樣,也就是超幾何分布可以用二項分布近似。
泊松分布 V.S. 二項分布:
泊松分布可以用來近似二項分布,當二項分布中,n很大,而p很小,np又是一個大小合適的數時,可以用Poisson(np)來近似二項分布。binomial(x;n,p)=poisson(x,np)
例如,一個城市有10萬人,在一個小時之內,每個人來到某個車站的概率均為0.001,那么在一個小時之內,這個車站會有多少人到來呢?
這是一個二項分布,n=10萬,p=0.001,顯然期望等於np=100人。如果讓求在一個小時之內有150人到來的概率,當然可以用二項分布,但里面的組合數不好計算,這時就可以用泊松分布近似:認為在一個小時內,這個車站到來的人數服從lambda=np=100的泊松分布。
也就是說泊松分布常常用來描述總體很大,對於總體中每個個體來說事件發生的概率很小(但總體中發生事件的概率=np,就不是一個小數字),在一段時間內總體中發生事件的次數為x的概率。顯然發生的次數與時間的長度以及lambda=np有關。
若x服從Poisson 分布,那么x應當滿足泊松過程的三個條件:平穩性,獨立性和普通性。(概率論基礎,復旦大學,李賢平,第99頁)
所謂平穩性就是在一段時間內發生的次數與計時的起點無關,只與時間的長度有關;
所謂獨立性就是互不相交的時間區間內過程進行的互相獨立性;
所謂普通性就是同一時間不可能有兩個或兩個以上的事件發生。
顯然,這三點在現實中可能是不滿足的。例如一段時間內到來的呼叫次數,完全有可能出現兩個呼叫同時發生的情況(占線),也有可能不平穩,例如白天的呼叫次數多於夜間。
幾何分布具有
無記憶性,這是由於每次試驗都是獨立的試驗,不受之前試驗結果的影響。注意到連續分布中的
指數分布也具有無記憶性。
2.連續數據與連續分布
連續數據是在一定區間內可以任意取值的數據,其數值是連續不斷的,相鄰兩個數值可作無限分割后仍然有意義,即可取無限個數值。
統計中提到最多的就是正態分布。它很重要!
2.1統計中常見的連續型分布:
1.均勻分布
2. 正態分布-標准正態分布
3. χ
2(卡方)分布
4.F分布
5.T分布
6.指數分布——注意到與冪律分布的區別
7.γ(伽瑪)分布
8.weibull分布
9.β(貝塔)分布
2.2連續分布之間的聯系
正態分布是統計學中分布的核心。根據大數定律和中心極限定理,二項分布、泊松分布都能在n趨近無窮時,趨近於正態分布。
連續型分布中,χ
2(卡方)分布、T分布、F分布都是由正態分布(標准正態分布)推導出來的。
指數分布和冪律分布圖形很像,http://blog.sina.com.cn/s/blog_8f48f45301015ofs.html 指出冪律分布的下降速度比指數分布快的現象,冪律下降時兩端更高,中間更低,在前半段變化比指數更快。