本篇博客是Daphne Koller課程Probabilistic Graphical Models(PGM)的學習筆記。
概率圖模型是一類用圖形模式表達基於概率相關關系的模型的總稱。概率圖模型共分為三個部分,分別為表示理論,推理理論和學習理論。基本的概率圖模型包括貝葉斯網絡、馬爾科夫網絡和隱馬爾科夫網絡。
Student Example
一個學生,擁有成績、課程難度、智力、SAT的分、推薦信等變量。
通過一張圖可以把這些變量的關系表示出來,可以想象成績由課程難度和智力決定,SAT成績由智力決定,而推薦信由成績決定。
在這個例子中,將變量簡單化,建立一個CPD(Conditional probability distribution)條件概率密度。按下表進行假設:
變量 |
值 | 含義 |
d | 0、1 | 課程簡單、課程難 |
i | 0、1 | 智力一般、智力超常 |
g | A、B、C | 課程獲得A、B、C的成績 |
s | 0、1 | SAT成績一般、成績優秀 |
l | 0、1 | 無推薦信、有推薦信 |
並表示為下圖:
使用概率中的chain rule,可以將上圖的整體概率表示為:
比如說P(d0, i1, g3, s1, l1)的概率就等於0.6*0.3*0.02*0.8*0.01。
貝葉斯網絡定義為:
- 一個有向無環圖表示隨機變量x1...xn。
- 每個節點都有一個CPD,是一個父節點的條件概率分布。
- BN可以表示為一個聯合概率分布。
其中有一些性質:
- 每個BN的P>=0
- 所有BN的P和為1
令G為一個關於x1...xn的貝葉斯網絡,如果G的聯合概率密度能夠表達為鏈式P,則稱P factorizes over G。
Genetic Inheritance Example
以一個家族的血型作為研究對象。每個節點是每一個家庭成員的血型(即顯血型),隱節點則為遺傳血型。顯血型包括A、B、O、AB,而遺傳血型則包括AA、AB、AO、AO、BB、OO。
模式推理:
- 因果推理
因果推理從頂向下,以父節點或者祖先節點為條件。
- 證據推理
證據推理從下向上,以子孫節點為條件。
- Intercausal Reasoning(原因之間的推理??)
方向是橫向的,以其他原因和結果為條件。
在貝葉斯網絡中,滿足一定條件,變量之間就會概率相關,這個之后會提到,比如下例:某學生Grade為C,SAT成績優異,那么該門課程太難的概率為多少呢。
概率影響流:
X-->Y D會影響G
X<--Y G會影響G
X-->W-->Y D會影響到L
X<--W<--Y 知道L,影響對L的估計
X<--W-->Y 知道G,也會影響對S的估計
X-->W<--Y 知道D,不會影響對I的估計,這種被稱為V結構。
除了V結構,概率影響的流動是順暢的。
在給出條件Z的情況下,X與Y還是相互影響的嗎?
X-->Y 有弧直接相連,相互影響
X<--Y 有弧直接相連,相互影響
下面的四種要分兩種情況考慮,1:W不是Z的子集,2:W是Z的子集
X-->W-->Y 以DGL為例 1:條件S下,D會影響L 2:條件G下,D不影響L
X<--W<--Y 以LDG為例 1:條件S下,L會影響D 2:條件G下,L不影響D
X<--W-->Y 以GIS為例 1:條件D下,S會影響G 2:條件I下,G不影響S
X-->W<--Y 以DGI為例 1:條件S下,D不影響I 2:條件G下,D影響I
對於X-->W<--Y,可以擴展為W的子孫。比如,在條件L下,D也會影響到I。
對於軌跡x1---xn,激活這條路徑的條件為:
- 對於任何V結構,xi-1-->xi<--xi+1,xi或者它的子孫節點必須為觀察值。
- 對於其他的xi,必須不為觀察值。
貝葉斯網絡中的獨立:
當在條件Z的情況下,X和Y在G中沒有一條激活的路徑(acvitve trail),則稱X和Y在圖G中是d-separated。
如果P factorizes over G,則在條件Z下d-separated的X和Y滿足條件Z下的獨立性。
在BN中,出給X,則以X的父節點為條件,X與任何它的非子孫d-separated。
下圖中,Letter與SAT、Intelligence、Difficulty、Coherence都d-separated,也就以為着L與S、I、D、C都概率獨立。
Imaps:
G中所有的d-separation,都對應P滿足的一個相互獨立。所以當P滿足I(G)時,G為P的一個Imap,當G為空集時,是所有P的I-map。
有下列理論:
- 如果P factorizes over G,那么G是P的一個I-map。
- 如果G是P的一個I-map,那么P factorizes over G。
朴素貝葉斯:
貝葉斯模型:一個樣本具有n個特征,而每個特征關於類別的條件概率分布是相互獨立的。
文本的伯努利朴素貝葉斯分類:
對於許多文本,分別關於寵物、財經或者其他。有N個特征作為字典,字典中包括“cat”、“dog”、“buy”,而每個特征都是一個伯努利分布。
根據貝葉斯公式,在x1...xn條件下,可以求出C=C1與C=C2的比。
介紹兩種朴素貝葉斯的分類:
- 伯努利朴素貝葉斯分類
- 多項式朴素貝葉斯分類
第一種:以字典為特征,特征數量為字典中單次總數。每一個特征都是伯努利分布的,整個樹可以表述成一個CPD。它的假設是:在Label條件下,每一個字出現的概率與其他字出現的概率是不相關的,這是有違常識的。所以伯努利朴素貝葉斯分類僅僅是一個not bad的方法。
第二種:以每個單詞為特征,特征數量為文檔的長度,每一個特征都是一個多項式分布,每個特征的CPD可以不同也可以相同。它的假設是:在Label條件下,一個字在位置a出現的概率與這個字才位置b出現的概率是不相關的。這種分類被廣泛使用。
總結:
朴素貝葉斯分類是一種簡單的分類方法,擁有計算效率和容易構建的優點,在處理弱相關特征時有驚人的效率,但是由於強獨立性的假設,當特征是相關的時候,使用朴素貝葉斯分類效果不好。