第三章
概率 與 概率分布
(一)事件
定義:在一定條件下,某種事物出現與否就稱為是事件。
自然界和社會生活上發生的現象是各種各樣的,常見的有兩類。
1、在一定條件下必然出現某種結果或必然不出現某種結果。
確定事件:必然事件(U)(certain event); 不可能事件(V)(impossible event)
2、在一定條件下可能發生也可能不發生。
隨機事件(random event);不確定事件(indefinite event)
為了研究隨機現象,需要進行大量重復的調查、實驗、測試等,這些統稱為試驗。
(二)頻率(frequency)(W)
事件出現的頻率(frequency)
若在相同的條件下,進行了n次試驗,在這n次試驗中,事件A出現的次數m稱為事件A出現的頻數,比值m/n稱為事件A出現的頻率(frequency),記為W(A)=m/n。
頻率表明了事件頻繁出現的程度,因而其穩定性說明了隨機事件發生的可能性大小,是其本身固有的客觀屬性,提示了隱藏在隨機現象中的規律性。
頻率是在一次試驗中某一事件出現的次數與試驗總數的比值。概率是某一事件所固有的性質。頻率是變化的每次試驗可能不同,概率是穩定值不變。在一定條件下頻率可以近似代替概率。
(三)概率(probability,P)
概率的統計定義:設在相同的條件下,進行大量重復試驗,若事件A的頻率穩定地在某一確定值p的附近擺動,則稱p為事件A出現的概率。
統計概率(statistics probability)
后驗概率(posterior probability)
在一般情況下,隨機事件的概率P是不可能准確得到的。通常以試驗次數n充分大時,隨機事件A的頻率作為該隨機事件概率的近似值。
概率的古典定義
對於某些隨機事件,不用進行多次重復試驗來確定其概率,而是根據隨機事件本身的特性直接計算其概率。
隨機事件特性:
(1)試驗的所有可能結果只有有限個,即樣本空間中的基本事件只有有限個;
(2)各個試驗的可能結果出現的可能性相等,即所有基本事件的發生是等可能的;
(3)試驗的所有可能結果兩兩互不相容。
具有上述特征的隨機試驗,稱為古典概型(classical model).
古典概率(classical probability);先驗概率(prior probability)
概率的基本性質
任何事件 0≤P(A)≤1
必然事件 P(U)=1
不可能事件 P(V)=0
隨機事件 0<P(A)<1
第二部分 概率的計算
(一)事件的相互關系
l 和事件: 事件A和事件B中至少有一個發生而構成的新事件稱為事件A和事件B的和事件,記作A+B。n個事件的和,可表示為A1+A2+…+An
l 積事件:事件A和事件B中同時發生而構成的新事件稱為事件A和事件B的積事件,記作A•B。n個事件的積,可表示為A1 •A2 •… • An
l 互斥事件(互不相容事件):事件A和事件B不能同時發生,則稱這兩個事件A和B互不相容或互斥。 A•B=V,n個事件兩兩互不相容,則稱這n個事件互斥。
對立事件:事件A和事件B必有一個發生,但二者不能同時發生,且A和B的和事件組成整個樣本空間。即A+B=U,AB=V。我們稱事件B為事件A的對立事件。如:新生兒男或女。
l 獨立事件:事件A和事件B的發生無關,事件B的發生與事件A的發生無關,則事件A和事件B為獨立事件。如:種子發芽。如果多個事件A1、A2、A3、…、An 彼此獨立,則稱之為獨立事件群。
完全事件系: 如果多個事件A1、A2、A3、…、An兩兩互斥,且每次試驗結果必然發生其一,則稱事件A1、A2、A3、…、An為完全事件系。完全事件系的和事件概率為1,任何一個事件發生的概率為1/n。即:
(二)概率的計算法則
1 互斥事件加法定理
定理: 若事件A與B互斥,則 P(A+B)=P(A)+P(B)
試驗的全部結果包含n個基本事件,事件A包含其中m1個基本事件,事件B包含其中m2個基本事件。由於A和B互斥,因而它們各包含的基本事件應該完全不同。所以事件A+B所包含的基本事件數為m1+m2。
推理1 P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)
推理2 P(A)=1-P(A)
推理3 完全事件系的和事件的概率為1。
2 獨立事件乘法定理
定理: 事件A和事件B為獨立事件,則事件A與事件B同時發生的概率為各自概率的乘積。 P(AB)=P(A)P(B)
推理:A1、A2、…An彼此獨立,則
P(A1A2A3…An)=P(A1)P(A2)P(A3)…P(An)
第三部分 概 率 分 布
(一)離散型變量的概率分布
要了解離散型隨機變量x的統計規律,必須知道它的一切可能值xi及其每種可能值的概率pi。對離散型變量x的一切可能值xi(i=1,2,3…),及其對應的概率pi
P (x=xi)稱為離散型隨機變量x的概率函數。
(二)連續型變量的概率分布
當試驗資料為連續型變量,一般通過分組整理成頻率分布表。如果從總體中抽取樣本的容量n相當大,則頻率分布就趨於穩定,我們將它近似地看成總體概率分布。
當n無限大時,頻率轉化為概率,頻率密度也轉化為概率密度,階梯形曲線也就轉化為一條光滑的連續曲線,這時頻率分布也就轉化為概率分布了,此曲線為總體的概率密度曲線,曲線函數f(x)稱為概率密度函數。
對於一個連續型隨機變量x,取值於區間[a,b]內的概率為函數f(x)從a到b的積分,即:
連續型隨機變量的概率由概率分布密度函數所確定。
概率密度函數f(x)曲線與x軸所圍成的面積為1。
第四部分 大 數 定 律
大數定律:是概率論中用來闡述大量隨機現象平均結果穩定性的一系列定律的總稱。
主要內容:樣本容量越大,樣本統計數與總體參數之差越小。
(1)貝努里大數定律
設m是n次獨立試驗中事件A出現的次數,而p是事件A在每次試驗中出現的概率,則對於任意小的正數ε,有如下關系:
(2)辛欽大數定律
設x1,x2,x3,…,xn是來自同一總體的變量,對於任意小的正數ε,有如下關系:
第二節:幾種常見的理論分布
隨機變量的概率分布 (probability distribution)
一、二 項 分 布
二 項 分 布是一種離散型隨機變量 的分布,對於某個性狀,常常可以把其資料分為兩個類型。試驗結果只能是“非此即彼”構成對立事件,將這種事件構成的總體稱為二項總體,其概率分布稱為二項分布。
相比較就可以發現,在n重貝努里試驗中,事件A發生x次的概率恰好等於展開式中的第x+1項,所以把P(x)稱為隨機變量x服從參數為n和p的二項分布(binomial distribution),也稱為貝努里分布,記作B(n,p)。這種“非此即彼”的事件所構成的總體稱為二項總體。
二項分布的兩個條件:
試驗只有兩個對立結果,記為A和A,出現概率分別為p和q=1-p。
重復性:每次試驗條件不變時,事件A出 現為恆定概率p;
獨立性:任何一次試驗中事件A的出現與其余各次試驗結果無關。
二項分布的形狀和參數
二項分布的形狀由n和p兩個參數決定。B(n,p)
(1)當p值較小且n不大時,分布是偏倚的。隨n的增大,分布趨於對稱;
(2)當p值趨於0.5時,分布趨於對稱。
c
統計學證明,服從二項分布B(n,p)的隨機變量所構成的總體的平均數μ 、標准差σ與n、p這兩個參數有關。
在二項分布中,事件A發生的頻率 x/n稱為二項成數,即百分數或頻率。則二項成數的平均數和標准差分別為:
二、泊 松 分 布
泊松分布就是描述某段時間內,事件具體的發生概率。
泊松分布(Poisson distribution) 是一種可以用來描述和分析隨機地發生在單位空間或時間里的稀有事件的概率分布,也是一種離散型隨機變量的分布。
泊松分布是二項分布的一種特殊類型。
泊松分布的概率函數 可由二項分布概率函數推導出來
對於小概率事件,可用泊松分布描述其概率分布。
二項分布當p<0.1和np<5時,可用泊松分布來近似。
三、正 態 分 布normal distribution
圍繞在平均值左右,由平均值到分布的兩側,變量數減少,即兩頭少,中間多,兩側對稱。
正態分布也稱為高斯分布(Gauss distribution)。
(一)正態分布的概率函數
f(x) 為正態分布的概率密度函數,表示某一定x值出現的概率密度函數值。
μ總體平均數 σ總體標准差
N (μ,σ2)
(二)正態分布的特征
x=μ時,f(x)值最大,正態分布曲線以平均數μ為中心的分布。
x-μ的絕對值相等時,f(x)也相等,正態分布密度曲線以μ為中心向左右兩側對稱。
f(x)是非負函數,以x軸為漸近線,x的取值區間為(-∞,+∞) 。
正態分布曲線由參數μ,σ決定, μ確定正態分布曲線在x軸上的中心位置,σ確定正態分布的變異度。
正態分布曲線在x=μ±σ處各有一個拐點,曲線通過拐點時改變彎曲度。
分布曲線與x軸圍成的全部面積為1
若一個連續型隨機變量x取值於區間[a,b],其概率為
f(u)稱為標准正態分布(standard normal distribution)或u分布方程。
u表示標准正態離差(standard normal deviate),它表示離開平均數μ有幾個標准差σ。
為了計算方便,對於不同的u值,計算出不同的F(u),編成函數表,稱為正態分布表,從中可以查到u任意一個區間內取值的概率。
(四)正態分布的概率計算
服從正態分布N(μ,σ2)的隨機變量,x的取值落在區間[x1,x2] 的概率,記作P(x1≤x<x2),等於服從標准正態分布的隨機變量u在[(x1-μ)/ σ, (x2-μ)/ σ]內取值的概率。
c
(五)正態分布的應用
正態分布是很多統計方法的理論基礎。
二項分布,泊松分布的極限均為正態分布,在一定條件下,均可按正態分布的原理來處理。后面的t檢驗,方差分析,相關回歸分析等多種統計方法均要求分析的指標服從正態分布。對於非正態分布資料,實施統計處理的一個重要途徑是先作變量的轉換,使轉換后的資料近似正態分布,然后按正態分布的方法作統計處理。
第三節 統計數的分布
研究總體與從總體中抽取樣本之間的關系:
1:總體-----樣本,了解從總體中抽取樣本的變異特點即抽樣分布也稱統計數的分布;
2樣本-----總體,要根據樣本統計數去推斷總體即統計推斷問題.
一、抽樣試驗與無偏估計
根據樣本對總體做出估計和推斷,並不是直接用樣本本身,而是用樣本的統計量來對總體做出估計和判斷。但由於從總體中抽取的樣本提供的信息僅是總體的一部分,因此它不能提供完全准確的信息,必然存在着一定的誤差。即,對於樣本容量相同的多次隨機抽樣,得到樣本函數的觀察值也是不同的,且其取值有一定的概率,即統計量也是一個隨機變量,因而也有它的分布,稱為抽樣分布(sampling distribution)。
二、樣本平均數的分布
由於從總體中抽出的樣本為每一個可能樣本,且每個樣本中的變量均為隨機變量,所以其樣本平均數也為隨機變量,也形成一定的理論分布,這種理論分布稱為樣本平均數的概率分布,或稱樣本平均數的分布。
樣本平均數分布的基本性質
標准誤反映了樣本平均數 x 的抽樣誤差,即精確性的高低。
標准誤大,各樣本平均數間差異程度大,樣本平均數的精確性低。
標准誤小,各樣本平均數間差異程度小,樣本平均數的精確性高。
標准誤的大小與原總體的標准差σ 成正比,與樣本含量n的平方根成反比。
從某特定總體抽樣,因為σ是一定值,所以只有增大樣本容量,才能降低樣本平均數的抽樣誤差。
若樣本中各觀測值為x1,x2,x3,…xn,則
均數的標准誤與標准差成正比,而與樣本例數n的平方根成反比。若標准差固定不變,可通過增加樣本含量n來減少抽樣誤差。
樣本平均數分布的基本性質
(3)如果從正態分布總體N(μ,σ2)進行抽樣,其樣本平均數x是一具有平均數 μ,方差σ2/n的正態分布,記作N(μ,σ2/n)。
中心極限定理 (central limit theorem)
(4)如果被抽總體不是正態分布總體,但具有平均數μ和方差σ2 ,當隨樣本容量n的不斷增大,樣本平均數 x 的分布也越來越接近正態分布,且具有平均數μ,方差σ2 /n ,這被稱為中心極限定理 (central limit theorem) 。
不論總體為何種分布,只要是大樣本,就可運用中心極限定理,認為樣本平均數的分布是正態分布,在計算樣本平均數出現的概率時,樣本平均數可按下式進行標准化。
三、樣本平均數差數的分布
樣本平均數差數分布的基本性質
(1)樣本平均數差數的平均數 = 總體平均數的差數.
(2)樣本平均數差數的方差 = 兩樣本平均數方差之和.
(3)從兩個獨立正態分布總體中抽出的樣本平均數差數的分布,也是正態分布。
四、t 分布
t分布概率密度函數
特征
(1)t分布曲線是左右對稱的,圍繞平均數μt =0 向兩側遞降。
(2)t分布受自由度df=n-1的制約,每個自由度都有一條t分布曲線。
(3)和正態分布相比,t分布頂端偏低,尾部偏高,自由度df>30時,其曲線接近正態分布曲線,df→∝時則和正態分布曲線重合。
t分布曲線與橫軸所圍成的面積為1。
同標准正態分布曲線一樣,統計應用中最為關心的是t分布曲線下的面積(即概率P)與橫軸t值間關系。
1在相同的自由度df時,t值越大,概率P越小。
2在相同t值時,雙尾概率P為單尾概率P的兩倍
3 df增大,t分布接近正態分布,即t值接近u值。
五、x2 分布
從方差為σ2的正態總體中,隨機抽取k個獨立樣本,計算出樣本方差S2,研究其樣本方差的分布。
在研究樣本方差的分布時,通常將其標准化,得到k個正態離差u,則
χ2分布於區間[0,+∝ ),並且呈反J型的偏斜分布。
χ2分布的偏斜度隨自由度降低而增大,當自由度df=1時,曲線以縱軸為漸近線。
隨自由度df的增大, χ2分布曲線漸趨左右對稱,當df>30時,卡方分布已接近正態分布。
對於給定的α(0<α<1),
稱滿足條件 P{x2>xα2(n)}=α的點 xα2(n)為
x2分布的上α分位點(右尾概率)。
六、F 分布
設從一正態總體N(μ,σ2) 中隨機抽取樣本容量為n1、n2的兩個獨立樣本,其樣本方差為s12、 s22,則定義其比值F為 :
此F值具有s12的自由度df1=n1-1和s22的自由度df2=n2-1。
如果對一正態總體在特定的df1和df2進行一系列隨機獨立抽樣,則所有可能的F值就構成一個F分布。
F分布的概率密度函數是兩個獨立χ2變量的概率密度所構成的聯合概率密度。
F分布是隨自由度df1和df2進行變化的一組曲線。
F分布的概率累積函數
F分布的平均數μF=1 ,F的取值區間為[0,+∝)
F分布曲線的形狀僅決定於df1和df2。在df1=1或2時,F分布曲線呈嚴重傾斜的反向J型,當df1≧ 3時,轉為左偏曲線。
對於給定的α(0<α<1) 稱滿足條件
P{F>Fα(n1,n2)}=α的點Fα(n1,n2)為F分布的上α分位點(或臨界值點)。