1)基礎知識預備:概率分布
1.1)定義:
廣義地,它指稱隨機變量的概率性質,即一個隨機變量在概率空間的分布狀況
狹義地,它是指隨機變量的概率分布函數,定義如下:
對於任意實數a,有: FX(a) = P(X≤a) ,FX(a)即是a的概率分布函數,而 P(X≤a) 則是在隨機變量X取值≤a時的所有的概率之和,所以概率分布函數又稱為累計概率函數。
ps:個人認為叫做累計概率函數更好理解一些啊!!!更詳細的剖解請參考 https://www.jianshu.com/p/b570b1ba92bb
但是對於離散分布,再用FX(a) = P(X≤a) 這個公式表達就不准確了,因為FX(a)表示的是隨機變量X≤a的概率值之和,但是當X是離散隨機變量的話,X≤a顯然就不合理了。所以對於離散分布:
用語言來描述的話,就是:把所有小於等於x的概率值相加,所以本質上還是概率的累積值,只不過在表達上比上式更為嚴謹。
1.2)研究的意義:
說完了概率分布的定義,接下來我們當然要了解這個概率分布它到底有什么用,為什么我們要去研究它?這樣以便我們能夠更好的理解它。
舉個例子吧:將每一天的降雨量設為X,顯然,這個X是一個隨機變量,那么你如果要研究降雨量,你是會選擇研究當X等於某一特定值得概率還是會選擇研究X落在實數域上某一區間上的概率呢?
顯而易見,肯定是后者啦。你看天氣預報有把每個降雨量的概率告訴你嗎(當然這個也不可能。。。),還不是告訴你明天是小雨還是中雨或者是大雨用這樣的區間的形式。而概率分布就是描述一個隨機變量在某一個區間上的概率。
下面是從各處引用(ctrl+c、ctrl+v)來的我們經常會聽到的一些隨機分布。因為本文的重點是為了引出聯合分布這個知識點,所以對下面的各種分布就不多說了。
ps:以上都是一些不成熟的個人見解,如果有誤,還煩請指出!
1.3)常見的幾種分布:
#二項分布:詳細請參考:https://zh.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85%E5%88%86%E4%BD%88
二項分布是一種離散型的概率分布。故明思義,二項代表這個隨機變量只有兩種可能的結果。
擲硬幣就是一個典型的二項分布。當我們要計算拋硬幣n次,恰巧有x次正面朝上的概率,可以使用二項分布的公式:
其中,p為正面朝上的概率
#泊松分布:
泊松分布適合於描述單位時間內隨機事件發生的次數的概率分布。如某一服務設施在一定時間內受到的服務請求的次數
泊松分布的概率質量函數為:
泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。
#正態分布:
又名高斯分布,是一個非常常見的連續概率分布。正態分布在統計學上十分重要,經常用在自然和社會科學來代表一個不明的隨機變量。
若隨機變量服從一個位置參數(X的期望)為
、尺度參數(X的標准差)為
的正態分布,記為:
有幾種不同的方法用來說明一個隨機變量。最直觀的方法是概率密度函數,這種方法能夠表示隨機變量每個取值有多大的可能性。
累積分布函數是一種概率上更加清楚的方法,請看下邊的例子。
正態分布的概率密度函數:
正態分布的累計概率函數(由密度函數表示的):
正態分布的累積分布函數能夠由一個叫做誤差函數的特殊函數表示:
標准正態分布的累積分布函數習慣上記為,它僅僅是指
,
時的值,
將一般正態分布用誤差函數表示的公式簡化,可得:
關於正態分布的幾個特征:
a.密度函數關於平均值對稱
b.平均值與它的眾數(statistical mode)以及中位數(median)同一數值。
c.函數曲線下68.268949%的面積在平均數左右的一個標准差范圍內。
d.95.449974%的面積在平均數左右兩個標准差的范圍內。
e.99.730020%的面積在平均數左右三個標准差的范圍內。
f.99.993666%的面積在平均數左右四個標准差的范圍內。
g.函數曲線的拐點為離平均數一個標准差距離的位置。
關於正態分布的幾個性質:
- 如果
且
與
是實數,那么
- 如果
與
是統計獨立的正態隨機變量,那么:
- 它們的和也滿足正態分布
- 它們的差也滿足正態分布
.
與
兩者是相互獨立的。(要求X與Y的方差相等)
- 它們的和也滿足正態分布
- 如果
和
是獨立正態隨機變量,那么:如果
為獨立標准正態隨機變量,那么
服從自由度為n的卡方分布。
- 它們的積
服從概率密度函數為
的分布
-
其中
是修正貝塞爾函數(modified Bessel function)
-
- 它們的比符合柯西分布,滿足
.
- 它們的積