目錄
9.3 KL散度(Kullback-Leibler divergenc,KL divergence)
9.5最大信息系數(maximal information coefficient,MIC)
1.多元正態分布(multivariate normal, MVN)
3.1朴素貝葉斯分類器(Naive Bayes Classifier, NBC)
一、隨機向量及其分布
多元隨機向量的分布:在多個隨機變量組成的向量上定義的分布。
1.多元向量的聯合分布
1.1離散情況
假設D維隨機向量(X1, …, XD),其中Xj為離散型隨機變量,則定義聯合概率質量函數(pmf)為:
聯合概率分布函數(CDF)為:
1.2連續情況
假設D維隨機向量(X1, …, XD),其中Xj為連續型隨機變量,則定義聯合概率密度函數(pdf)為:
其中:
聯合概率分布函數(CDF)為:
對任意集合:
2.多元向量的邊緣分布
2.1離散情況
假設D維離散型隨機向量(X1, …, XD)有聯合質量函數p(X1, …, XD),則定義Xj的邊緣概率質量函數:
2.2連續情況
假設D維連續型隨機向量(X1, …, XD)有聯合質量函數p(X1, …, XD),則定義Xj的邊緣概率質量函數:
3.多元向量的條件分布
(1) 例如,對二維隨機變量(X,Y), 當p(y) > 0時,給定Y=y時X的條件分布為:
即:
(2) 鏈規則(Chain Rule)
例如有3個隨機變量時:
或者:
一般地,
4.貝葉斯規則
(1) 全概率公式
如果Y可以取值y1, …, yK,x為X的一個取值,則:
(2) 貝葉斯規則:
5.多元向量獨立
若對向量中X,Y中所有的x, y,有:
或者:
則稱X與Y獨立,記作:X⊥Y
6.多元向量條件獨立
若對向量中X,Y,Z中所有的x, y, z,有:
或者
則稱X與Y條件獨立(即有條件的獨立),記作:X⊥Y | Z
7.協方差與相關系數
如果隨機變量之間不獨立,可用協方差/相關系數來刻畫兩個隨機變量之間關系強弱:
性質:
(1)
協方差滿足:
相關系數滿足:
(2) 如果X,Y獨立,則:
(3) 協方差:
對任意兩個隨機變量X和Y,有:
推廣到多個隨機變量:
8.方差-協方差矩陣
令隨機向量X的形式為:X = (X1, …, XD)T,則方差-協方差矩陣定義為:
當各個成分變量獨立時,協方差矩陣是一個對角矩陣。
9.信息論
9.1 機器學習原則
(1)選擇最簡單的、能表示數據產生規律的模型
(2)模型選擇:最小描述長度准則
(3)特征選擇:選擇與目標最相關的特征
9.2 熵
(1)熵是一種不確定度的度量
(2)定義:
假設隨機變量X的分布為p,則該隨機變量的熵定義為:
9.3 KL散度(Kullback-Leibler divergenc,KL divergence)
KL散度,又稱相對熵(relative entropy):一種度量兩個分布p和q之間的差異的方法:
或者:
其中H(p, q)稱為交叉熵:
9.4互信息
互信息:度量聯合分布p(X, Y)和因式分解形式p(X)P( Y)之間的相似度:
或者:
其中H(X|Y)或H(Y|X)稱為條件熵(表示觀測到X后Y的不確定性減少):
性質:
(1)互信息不小於0:
(2)當且僅當p(X, Y)= p(X)P( Y),即X 與Y獨立時,互信息為0.
(3)在特征選擇時,可以通過計算特征與目標之間的互信息,選擇與目標互信息最大的那些特征,拋棄與目標關系不大的特征。
9.5最大信息系數(maximal information coefficient,MIC)
(1)連續變量的互信息,需先離散化,再計算互信息。
(2)最大信息系數(MIC):以最優的方式離散化,並將互信息取值轉換成到[0,1]:
其中I(X(G);Y(G))為某種離散方式, 箱子大小B建議為N0.6,N為樣本數目。
二、多元正態分布
1. 多元正態分布(multivariate normal, MVN)
多元正太分布的一般形式 :
其中,
期望:μ=E(x) , 協方差矩陣:Ʃ = E( (x-μ)T(x-μ) ),即可以寫成方差-協方差矩陣的形式。
協方差矩陣有D x (D-1)/2個獨立元素,是正定矩陣,
協方差矩陣的逆 = 精度
2. 協方差的特征值分解
協方差矩陣的特征值分解:
則Mahalanobis 距離(等於在翻轉坐標系中的歐氏距離):
其中,yi = uiT (x -μ)
3. MVN的白化
假設x隨機向量服從多元正態分布:
則令y的分布為:
稱y已經被白化了,即已經服從了標准正態分布:N(0,I)
4. 高斯判別分析(GDA)
在產生式分類器中:
使用高斯分布作為類條件分布:
通過分析這個高斯分布來確定最佳的分布的方法,叫高斯判別分析(GDA)。
例如,當協方差矩陣為對角陣時,為朴素貝葉斯分類器(各特征獨立)。
5. 決策邊界
(1) 當所有都相等時,判別邊界為線性,稱為線性判別分析(Linear Discriminant Analysis, LDA)
(2) 一般情況下,判別邊界為二次曲線
(3) 協方差決定了模型的復雜度(參數的數目)
三、概率圖模型
利用隨機變量之間的條件獨立關系,可以將隨機向量的聯合分布分解為一些因式的乘積,得到簡潔的概率表示。
1.有向圖
有向圖模型(directed graphical models,DGMs)使用帶有有向邊的圖,用條件概率分布來表示分解:每個隨機變量xi都包含着一個影響因子,這些影響因子被稱為xi的父節點,記為Pa (xi),則有向圖模型表示概率分解:
2.無向圖
無向圖模型(undirected graphical model,UGM):使用帶有無向邊的圖,將聯合概率分解成一組函數的乘積。
圖中任何滿足兩兩之間有邊連接的頂點的集合被稱為團(clip),每個團Ci都伴隨着一個因子: ɸi(Ci), 並且這些團必須滿足:
(1)每個因子的輸出都必須是非負的
(2)但不像概率分布中那樣要求因子的和/積分為1
則隨機向量的聯合概率可以分解為:所有這些因子的乘積:
其中歸一化常數Z被定義為函數乘積的所有狀態的求和或積分,使得這些乘積的求和為1(即使得p(x)為一個合法的概率分布)。
3.特殊的概率圖模型
3.1 朴素貝葉斯分類器(Naive Bayes Classifier, NBC)
(1)原理:假設各維特征在給定類別標簽的情況下是條件獨立的。
(2)假設要進行分類,共有C個類別y∈ (1,2,…, C),每個樣本有特征x = (x1, …, xD),則給定類別標簽下的條件概率為:
(3)進行分類(預測):
3.2鏈規則
給定時間長度為T 的序列X1,…, XT,則鏈規則:
即第t時刻的狀態Xt只與前t-1個時刻的狀態X1:t-1相關。
3.3 Markov鏈
假設第t時刻的狀態Xt只與前一個時刻的狀態Xt-1相關,稱為一階Markov假設,得到的聯合分布為Markov鏈(或Markov模型):
3.4轉移矩陣
當Xt∈(1,2,…,k)為離散時,則條件分布p(Xt|Xt-1)可表示為一個K x K的矩陣|Aij|,稱為轉移矩陣,其中:
表示從狀態i轉移到狀態j的概率,也稱為叫做隨機矩陣。
3.5隱馬爾科夫模型(HMM)
如果系統的狀態不可見,只能觀測到由隱含狀態驅動的觀測變量,則可用隱馬爾可夫模型(Hidden Markov Model, HMM)表示聯合概率:
其中:
其中zt表示第t時刻的隱含狀態;
p(Zt|Zt-1)表示轉移模型;
p(Xt|Zt)表示觀測模型。
3.6 Markov隨機場(MRF)
(1)定義
隨機場可以看成是一組隨機變量的集合(這些隨機變量之間可能有依賴關系);
Markov隨機場:加了Markov性質限制的隨機場,可用無向圖表示。
(2)MRF的參數化
1)
無向圖中節點之間的邊沒有方向,不能用鏈規則表示聯合概率,而是用圖中每個最大團C 的因子的乘積表示:
其中Z為歸一化常數。
2)
或者,使用能量函數表示為:
3)
或者,將log勢能函數表示為一些函數的線性組合:
其中,組合權重為Ɵ,ɸc為根據變量yc得到的特征。
則log聯合分布表示為:
稱為最大熵模型或log線性模型,在條件隨機場(CRF)、(受限)Boltzmann機(RBM)可用此形
式表示聯合概率。
3.7 條件隨機場(CRF)
條件隨機場(Conditional Random Field,CRF):
給定MRF中的每個隨機變量下面還有觀測值,則給定觀測條件下MRF的分布:
其中,x為觀測集合。
- tany 2017年10月7日於杭州
人工智能從入門到專家教程資料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765