一、引言
最近寫了許多關於機器學習的學習筆記,里面經常涉及概率論的知識,這里對所有概率論知識做一個總結和復習,方便自己查閱,與廣大博友共享,所謂磨刀不誤砍柴工,希望博友們在這篇博文的幫助下,閱讀機器學習的相關文獻時能夠更加得心應手!這里只對本人覺得經常用到的概率論知識點做一次小結,主要是基本概念,因為機器學習中涉及概率論的地方,往往知道基本概念就不難理解,后面會不定期更新,希望博友們多留言補充。
二、古典概率論中的幾個重要的公式
- $P(\bar{A})=1-P(A)$
- $P(A-B)=P(A)-P(AB)$
- $P(A+B)=P(A)+P(B)-P(AB)$
- $P(A+B+C)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC)$
- 對於 $n$ 個事件 $A_{1},A_{2},A_{3},\ldots,A_{n}$,兩兩互斥,則 $P(\cup_{i=1}^{n}A_{i})=\sum_{i=1}^{n}P(A_{i})$
二、貝葉斯(Bayes)公式
通常把事件 A 的概率 P(A)叫做實驗前的假設概率,即先驗概率(prior probability),如果有另一個事件 B 與事件 A 有某種關系,即事件 A 和 B 不是互相獨立的,那么當事件 B 確實發生之后,則應當重新估計事件 A 的概率,即 P(A | B), 這叫做條件概率或者試驗后的假設概率,即后驗概率(posterior probability).
公式一:
再引入全概率公式:設事件A當前僅當互不相容的事件(即任意兩個事件不可能同時發生的)(i = 1, 2 , ... n) 中的任意一個事件發生時才可能發生,已知事件
的概率
及事件 A 在
已發生的條件下的條件概率,則事件 A 發生的概率為:
這就是全概率公式.
根據概率乘法定理:
我們可以得到:
於是:
再根據上面介紹的全概率公式,則可得到傳說中的貝葉斯公式:
這些公式定理幾乎貫穿整個機器學習,很基本,也很重要!
三、常用的離散隨見變量分布
- “0-1”分布": 設隨機變量 X 只能取得兩個數值:0與1,而概率函數是:
通常把這種分布叫做“0-1”分布或者兩點分布,
是分布參數.
- 二項分布(binomial distribution): 設隨機變量 X 可能的的值是0, 1, 2, ..., n, 而概率函數是:
其中,這種分布叫做二項分布,含有兩個參數
和
,通常把這種分布記作
,如果隨見變量 X 服從二項分布
,記作
3. 泊松(Possion)分布: 設隨機變量 X 的可能值是一切非負整數,而概率函數是:
其中λ > 0 為常數,這種分布叫做泊松分布。泊松分布就含有一個參數λ ,記作P(λ), 如果隨機變量 X 服從泊松分布,則記作X~P(λ)
四、隨機變量的分布函數
設 x 是任何實數,考慮隨機變量 X 取得的值不大於 x 的概率,即事件 X ≤ x 的概率,記作 F(x) = P(X ≤ x), 這個函數叫做隨機變量 X 的概率分布函數或者分布函數,注意區別於上面講到的概率函數.
如果已知隨機變量 X 的分布函數 F(X), 則隨見變量 X 落在半開區間 (x1, x2] 內的概率:P(x1 < X ≤ x2) = F(x2) - F(x1)
五、連續隨機變量的概率密度
連續隨機變量的概率密度就是分布函數的導函數
六、隨機變量的數學期望
如果隨機變量 X 只能取得有限個值:
而取得有限個值得概率分別是:
則數學期望:
如果連續隨機變量 X 的概率密度為,則連續隨機變量的數學期望:
一個常數的的數學期望等於這個常數本身。
定理:兩個獨立隨機變量的乘積的數學期望等於它們數學期望的乘積。證明如下:
對於離散隨機變量 X 與 Y 獨立:
對於連續隨機變量 X 與 Y 獨立:
七、方差與標准差
隨機變量 X 的方差記作 D(X),定義為:
下面證明一個很有用的公式(會用到性質:一個常數的的數學期望等於這個常數本身):
簡而言之:隨機變量的方差等於變量平方的期望減去期望的平方.
標准差就是方差的算術平方根。
常數的方差為0.
八、協方差與相關系數
隨機變量 X 與 隨機變量 Y 的協方差記作:
進一步推導可得:
因為兩個獨立隨機變量乘積的期望等於兩個隨機變量各自期望的乘積,於是當兩個隨機變量獨立使,很容易得到它們的協方差為0.
兩個隨機變量 X 與 Y 的 相關系數為:
兩個隨機變量的相關系數的絕對值不大於1.
當且僅當隨機變量 Y 與 X 之間存在線性關系:
時,相關系數的絕對值等於1,並且
九、正態分布
正態分布又叫高斯分布,設連續隨機變量 X 的概率密度
其中 μ 及 σ>0 都是常數,這種分布就是正態分布.
正態分布含有兩個參數 μ 及 σ>0,其中μ等於正態分布的數學期望,而 σ 等於正態分布的標准差,通常把這種分布記作,隨機變量 X 服從正態分布
,則記為:
定理 設隨機變量 X 服從正態分布,則 X 的線性函數 Y= a + bX(b≠0)也服從正態分布,且有
先總結這么多,以后遇到重要的概率論知識點會繼續補充!