第三章概率與概率分布

本文轉載自查看原文 2017-03-06 10:39 1676 011 統計學/ 生物統計學

第三章

概率與概率分布

（一）事件

定義：在一定條件下，某種事物出現與否就稱為是事件。

自然界和社會生活上發生的現象是各種各樣的，常見的有兩類。

1、在一定條件下必然出現某種結果或必然不出現某種結果。

確定事件：必然事件（U）(certain event); 不可能事件（V）（impossible event）

2、在一定條件下可能發生也可能不發生。

隨機事件(random event);不確定事件(indefinite event)

為了研究隨機現象，需要進行大量重復的調查、實驗、測試等，這些統稱為試驗。

（二）頻率（frequency）（W）

事件出現的頻率(frequency)

若在相同的條件下，進行了n次試驗，在這n次試驗中，事件A出現的次數m稱為事件A出現的頻數，比值m/n稱為事件A出現的頻率(frequency)，記為W(A)=m/n。

頻率表明了事件頻繁出現的程度，因而其穩定性說明了隨機事件發生的可能性大小，是其本身固有的客觀屬性，提示了隱藏在隨機現象中的規律性。

頻率是在一次試驗中某一事件出現的次數與試驗總數的比值。概率是某一事件所固有的性質。頻率是變化的每次試驗可能不同，概率是穩定值不變。在一定條件下頻率可以近似代替概率。

（三）概率（probability,P)

概率的統計定義：設在相同的條件下，進行大量重復試驗，若事件A的頻率穩定地在某一確定值p的附近擺動，則稱p為事件A出現的概率。

統計概率(statistics probability)

后驗概率(posterior probability)

在一般情況下，隨機事件的概率P是不可能准確得到的。通常以試驗次數n充分大時，隨機事件A的頻率作為該隨機事件概率的近似值。

概率的古典定義

對於某些隨機事件，不用進行多次重復試驗來確定其概率，而是根據隨機事件本身的特性直接計算其概率。

隨機事件特性：

（1)試驗的所有可能結果只有有限個，即樣本空間中的基本事件只有有限個;

（2)各個試驗的可能結果出現的可能性相等，即所有基本事件的發生是等可能的;

（3)試驗的所有可能結果兩兩互不相容。

具有上述特征的隨機試驗，稱為古典概型（classical model).

古典概率(classical probability)；先驗概率(prior probability)

概率的基本性質

任何事件 0≤P(A)≤1

必然事件 P(U)=1

不可能事件 P(V)＝0

隨機事件 0<P(A)<1

第二部分概率的計算

（一）事件的相互關系

l 和事件：事件A和事件B中至少有一個發生而構成的新事件稱為事件A和事件B的和事件，記作A+B。n個事件的和，可表示為A₁+A₂+…+A_n

l 積事件：事件A和事件B中同時發生而構成的新事件稱為事件A和事件B的積事件，記作A•B。n個事件的積，可表示為A₁•A₂•… • A_n

l 互斥事件（互不相容事件）：事件A和事件B不能同時發生，則稱這兩個事件A和B互不相容或互斥。 A•B=V，n個事件兩兩互不相容，則稱這n個事件互斥。

對立事件：事件A和事件B必有一個發生，但二者不能同時發生，且A和B的和事件組成整個樣本空間。即A+B=U，AB=V。我們稱事件B為事件A的對立事件。如：新生兒男或女。

l 獨立事件：事件A和事件B的發生無關，事件B的發生與事件A的發生無關，則事件A和事件B為獨立事件。如：種子發芽。如果多個事件A₁、A₂、A₃、…、A_n 彼此獨立，則稱之為獨立事件群。

完全事件系：如果多個事件A₁、A₂、A₃、…、A_n兩兩互斥，且每次試驗結果必然發生其一，則稱事件A₁、A₂、A₃、…、A_n為完全事件系。完全事件系的和事件概率為１，任何一個事件發生的概率為1/n。即：

（二）概率的計算法則

1 互斥事件加法定理

定理: 若事件A與B互斥，則 P(A+B)=P(A)+P(B)

試驗的全部結果包含n個基本事件，事件A包含其中m₁個基本事件，事件B包含其中m₂個基本事件。由於A和B互斥，因而它們各包含的基本事件應該完全不同。所以事件A＋B所包含的基本事件數為m₁+m₂。

推理1 P(A₁+A₂+…+A_n)=P(A₁)+P(A₂)+…+P(A_n)

推理2 P(A)=1-P(A)

推理3 完全事件系的和事件的概率為1。

2 獨立事件乘法定理

定理: 事件A和事件B為獨立事件，則事件A與事件B同時發生的概率為各自概率的乘積。 P(AB)=P(A)P(B)

推理：A₁、A₂、…A_n彼此獨立，則

P(A₁A₂A₃…A_n)=P(A₁)P(A₂)P(A₃)…P(A_n)

第三部分概率分布

（一）離散型變量的概率分布

要了解離散型隨機變量x的統計規律，必須知道它的一切可能值x_i及其每種可能值的概率p_i。對離散型變量x的一切可能值x_i(i=1,2,3…),及其對應的概率p_i

P (x=x_i)稱為離散型隨機變量x的概率函數。

（二）連續型變量的概率分布

當試驗資料為連續型變量，一般通過分組整理成頻率分布表。如果從總體中抽取樣本的容量n相當大，則頻率分布就趨於穩定，我們將它近似地看成總體概率分布。

當n無限大時，頻率轉化為概率，頻率密度也轉化為概率密度，階梯形曲線也就轉化為一條光滑的連續曲線，這時頻率分布也就轉化為概率分布了，此曲線為總體的概率密度曲線，曲線函數f(x)稱為概率密度函數。

對於一個連續型隨機變量x，取值於區間[a,b]內的概率為函數f(x)從a到b的積分，即：

連續型隨機變量的概率由概率分布密度函數所確定。

概率密度函數f(x)曲線與x軸所圍成的面積為1。

第四部分大數定律

大數定律：是概率論中用來闡述大量隨機現象平均結果穩定性的一系列定律的總稱。

主要內容：樣本容量越大，樣本統計數與總體參數之差越小。

（1)貝努里大數定律

設m是n次獨立試驗中事件A出現的次數，而p是事件A在每次試驗中出現的概率，則對於任意小的正數ε，有如下關系：

（2)辛欽大數定律

設x₁,x₂,x₃,…,x_n是來自同一總體的變量，對於任意小的正數ε，有如下關系：

第二節：幾種常見的理論分布

隨機變量的概率分布 (probability distribution)

一、二項分布

二項分布是一種離散型隨機變量的分布，對於某個性狀，常常可以把其資料分為兩個類型。試驗結果只能是“非此即彼”構成對立事件，將這種事件構成的總體稱為二項總體，其概率分布稱為二項分布。

相比較就可以發現，在n重貝努里試驗中，事件A發生x次的概率恰好等於展開式中的第x+1項，所以把P(x)稱為隨機變量x服從參數為n和p的二項分布(binomial distribution)，也稱為貝努里分布，記作B(n,p)。這種“非此即彼”的事件所構成的總體稱為二項總體。

二項分布的兩個條件：

試驗只有兩個對立結果，記為A和A，出現概率分別為p和q=1-p。

重復性：每次試驗條件不變時，事件A出現為恆定概率p；

獨立性：任何一次試驗中事件A的出現與其余各次試驗結果無關。

二項分布的形狀和參數

二項分布的形狀由n和p兩個參數決定。B(n,p)

(1)當p值較小且n不大時，分布是偏倚的。隨n的增大，分布趨於對稱；

（2）當p值趨於0.5時，分布趨於對稱。

統計學證明，服從二項分布B(n,p)的隨機變量所構成的總體的平均數μ 、標准差σ與n、p這兩個參數有關。

在二項分布中，事件A發生的頻率 x/n稱為二項成數，即百分數或頻率。則二項成數的平均數和標准差分別為：

二、泊松分布

泊松分布就是描述某段時間內，事件具體的發生概率。

泊松分布(Poisson distribution) 是一種可以用來描述和分析隨機地發生在單位空間或時間里的稀有事件的概率分布，也是一種離散型隨機變量的分布。

泊松分布是二項分布的一種特殊類型。

泊松分布的概率函數可由二項分布概率函數推導出來

對於小概率事件，可用泊松分布描述其概率分布。

二項分布當p<0.1和np<5時，可用泊松分布來近似。

三、正態分布normal distribution

圍繞在平均值左右，由平均值到分布的兩側，變量數減少，即兩頭少，中間多，兩側對稱。

正態分布也稱為高斯分布(Gauss distribution)。

（一）正態分布的概率函數

f(x) 為正態分布的概率密度函數，表示某一定x值出現的概率密度函數值。

μ總體平均數 σ總體標准差

N (μ，σ²)

（二）正態分布的特征

x=μ時，f(x)值最大，正態分布曲線以平均數μ為中心的分布。

x-μ的絕對值相等時，f(x)也相等，正態分布密度曲線以μ為中心向左右兩側對稱。

f(x)是非負函數，以x軸為漸近線，x的取值區間為(-∞,+∞) 。

正態分布曲線由參數μ，σ決定， μ確定正態分布曲線在x軸上的中心位置，σ確定正態分布的變異度。

正態分布曲線在x=μ±σ處各有一個拐點，曲線通過拐點時改變彎曲度。

分布曲線與x軸圍成的全部面積為1

若一個連續型隨機變量x取值於區間[a,b]，其概率為

f(u)稱為標准正態分布(standard normal distribution)或u分布方程。

u表示標准正態離差（standard normal deviate)，它表示離開平均數μ有幾個標准差σ。

為了計算方便，對於不同的u值，計算出不同的F(u)，編成函數表，稱為正態分布表，從中可以查到u任意一個區間內取值的概率。

（四）正態分布的概率計算

服從正態分布N(μ,σ²)的隨機變量，x的取值落在區間[x₁,x₂] 的概率，記作P(x₁≤x<x₂)，等於服從標准正態分布的隨機變量u在[(x₁-μ)/ σ, (x₂-μ)/ σ]內取值的概率。

（五）正態分布的應用

正態分布是很多統計方法的理論基礎。

二項分布，泊松分布的極限均為正態分布，在一定條件下，均可按正態分布的原理來處理。后面的t檢驗，方差分析，相關回歸分析等多種統計方法均要求分析的指標服從正態分布。對於非正態分布資料，實施統計處理的一個重要途徑是先作變量的轉換，使轉換后的資料近似正態分布，然后按正態分布的方法作統計處理。

第三節統計數的分布

研究總體與從總體中抽取樣本之間的關系:

1:總體-----樣本,了解從總體中抽取樣本的變異特點即抽樣分布也稱統計數的分布;

2樣本-----總體,要根據樣本統計數去推斷總體即統計推斷問題.

一、抽樣試驗與無偏估計

根據樣本對總體做出估計和推斷，並不是直接用樣本本身，而是用樣本的統計量來對總體做出估計和判斷。但由於從總體中抽取的樣本提供的信息僅是總體的一部分，因此它不能提供完全准確的信息，必然存在着一定的誤差。即，對於樣本容量相同的多次隨機抽樣，得到樣本函數的觀察值也是不同的，且其取值有一定的概率，即統計量也是一個隨機變量，因而也有它的分布，稱為抽樣分布(sampling distribution)。

二、樣本平均數的分布

由於從總體中抽出的樣本為每一個可能樣本，且每個樣本中的變量均為隨機變量，所以其樣本平均數也為隨機變量，也形成一定的理論分布，這種理論分布稱為樣本平均數的概率分布，或稱樣本平均數的分布。