原創書寫,轉載請注明出處http://www.cnblogs.com/xbinworld/archive/2013/04/25/3041505.html
今天開始學Pattern Recognition and Machine Learning (PRML)書,章節1.2,Probability Theory (上)
這一節是濃縮了整本書關於概率論的精華,突出一個不確定性(uncertainty)的理解。我看的比較慢,是想要細扣一下,而且寫blog碼字也很慢,不過我想留下點痕跡所以會寫下去。前面幾節其實很重要,所以單獨一節甚至半節寫一個blog,后面如果一個章節在討論一個topic我可能就會一個章節一個blog,比如第九章講EM算法,我應該就用一個blog帶過。
(入門而已,高手一笑而過吧~。~)
對於書中的公式如果重要我都會推導一下,然后用黃色表示一下,以后的章節也是如此。如果大家也看PRML書建議也自己推幾個公式,加深理解。如果出現“注”,就是我自己加的描述。
首先從一個例子說起:有兩個盒子,一個紅色盒子里面有2個蘋果(綠)+6個桔子(黃),一個藍色盒子里面有3個蘋果+1個桔子,具體可以見圖1.9。隨機挑選一個盒子,然后從盒子里隨機拿出一個水果,觀察是什么后放回原處,重復這個過程很多次。
我們定義挑選紅色盒子的次數為總次數的40%,挑選藍色盒子的次數為60%。
在這個例子中,盒子的顏色是一個隨機變量,我們稱之為B,它有兩個取值r(red)和b(blue);水果也是一個隨機變量,稱之為F,它的取值是a(apple)和o(orange)。
首先從頻次的角度理解概率,選擇紅/藍盒子的概率分別為:
注:概率必須在[0,1]范圍內,且覆蓋所有可能的互斥事件的概率和為1。
我們現在可以問類似這樣的問題:(1)一次挑選得到蘋果的概率是多少?(2)如果我們得到的是桔子,那么這一次挑選的是紅盒子的概率是多少?
=============================================華麗的分割線==========================================================
在解決上述問題前我們先跳出這個例子,來考慮更一般的情況:見圖1.10
對兩個隨機變量的大量重復實驗,把得到(xi, yi)的結果次數記錄到n_ij中,圖中一列之和表示為ci(表示所有出現xi的總次數),一行之和為rj,為出現yj的總次數。得到X=xi和Y=yi的聯合概率:
以及X=xi的邊緣概率:
還可以得到條件概率,給定xi得到yj的概率:
通過以上推導,我們可以得到下面的關系:
上面的(1.7)式子叫做加法規則sum rule,(1.9)叫做乘法規則product rule, 是概率論中最基本的兩個規則了:
注:這兩個rule幾乎是最重要的方法了。
通過這兩個規則可以得到在機器學習中非常重要的貝葉斯理論:
其中P(X)可以對所有的Y展開:
可以理解為normalization,使得(1.12)左邊的條件概率在所有的Y取值下,概率之和為1。
=============================================華麗的分割線============================================================
好了,現在跳回到前面的兩個盒子的例子,(在下面的書寫中我們會強調一下隨機變量(大寫字母)以及它們的實例(小寫字母),后面可能就會寫的簡略一些)
這幾個概率表達式都是直接得到的,題目中給了,比如第三條:盒子為紅色情況下,抽到水果為蘋果的概率為1/4。 且滿足,即同一條件下所有可能性之和為1。OK, 現在我們可以回答“抽到蘋果的概率”這個問題了:
即窮舉所有盒子的可能,以及每一種盒子下抽到蘋果的概率之和。對應的,抽到桔子的概率就是p(F=o) = 1- 11/20 = 9/20。
好,現在回答第二個問題:如果我們得到的是桔子,那么這一次挑選的是紅盒子的概率是多少?
通過貝葉斯公式:
答案通過貝葉斯公式很容易得到,而我們所需的信息都可以從前面的基本信息中得到。在這個例子中,我們已經設計到很多概念,比如對盒子的選取有一個預估,也就是P(B),我們稱之為先驗概率,因為它是在我們觀測抽取結果之前就已知了的(決定了的);
然后我們的第二個問題,已知抽到是桔子的情況下求盒子紅色的概率,其實就是估計盒子為紅色的后驗概率,因為是在我們觀察到隨機變量F之后得到的估計。由此可見當我們有一定的觀察值的時候我們就不能從直觀的理解去判斷一個事件,比如先驗告訴我們說有60%的可能是選取藍盒子,但式子是(1.23)說明在有觀察o的情況下,紅盒子的概率有2/3,比藍盒子大多了。
還要介紹一下兩個隨機變量的邊緣分布的乘積等於他們的聯合分布,即p(X,Y) = p(X)P(Y),那么這兩個隨機變量相互獨立,也有p(Y|X) = p(Y)。
1.2.1 概率密度
前面介紹都是從離散變量的角度,我們需要重新考慮連續變量的概率定義。
如果一個實數連續變量,其落在區間的概率是
,當
時,那么小p(x)就稱之為x的概率密度。概率定義成:
注:這里都用小p來表示容易混淆,前面的p是代表概率,后面p(x)是概率密度。
(連續變量就沒有x為某一具體值的概率定義了,因為有無窮的取值,都是說落在一個區段內的概率)
累計分布函數(cumulative distribution)的定義是x處在區間的概率:
滿足P’(x) = p(x)。在圖1.12中我們繪制了概率密度小p和累計分布函數大P,綠色的面積是落在小區間內的概率。
前面討論過的sum rule 和product rule在連續變量情況下也適用:
1.2.2 期望和方差
期望:一個函數f(x) 在一個概率分布p(x)下的平均取值就是f(x)的期望,定義為:
對於離散情況而言,期望就是一個所有可能值的加權和。對於連續變量就用對應的積分形式:
注:這里兩個小p有不同,上面在離散情況下已經是理解成概率了,而下面(1.34)中小p是概率密度。
對期望的一種直觀估計是所有觀察點的平均:
當N趨於無窮大時,取等號。這樣的平均值我們是經常用到的。
如果f有多個變量,我們一般會用下標來表示是針對哪一個變量的分布(變化)考慮的,比如
就是說f的關於變量x的期望,事實上,上式是一個以y為變量的函數。類似的,我們也可用定義條件期望:
方差:方差可以估計一個函數f在他的期望附近變化的劇烈程度,定義為
如果考慮變量x本身,也可用x的方差:
注:(書里跳過了)這個等式實際上是從方差的定義推導出來的:
另外,對於兩個隨機變量我們定義協方差:
表示x,y一起變化的程度,如果x和y相互獨立,那么協方差為0。可以看到單個變量的方差是協方差的特殊情況,x=y。
如果x和y表示的是兩個向量(vector)變量,x和y是列向量,那么協方差是一個矩陣:
好了,期望和方差介紹到這里,這兩個概念幾乎貫穿機器學習的所有領域。今天先記錄這一些吧,章節1.2確實很重要,這里只是上半部分,下半部分過幾天整理了再放出吧。
吐槽一下,寫了這么幾頁就花了2小時+(動作太慢?),主要是語句都是經過梳理的,雖然公式和圖表都是copy的,但是依然要花不少時間,記下來我自己加深下印象也是有好處。
1.2的下半部分包括了貝葉斯定理和高斯分布的介紹,非常重要。基本上章節1.2組成了概率統計學習的基礎內容,建議初學者好好理解下。