貝葉斯理論應用於機器學習方面產生了多種不同的方法和多個定理,會讓人有些混淆。主要有最大后驗概率,極大似然估計(MLE),朴素貝葉斯分類器,還有一個最小描述長度准則。
貝葉斯理論是基於概率的理論,設\(\lambda_{ij}\)是將實為\(c_j\)的樣本標記為\(c_i\)的損失,則將樣本\(x\)標記為\(c_i\)的期望損失是
\[R(c_i|x)=\sum_{j=1}^{N}{\lambda_{ij}P(c_j|x)} \hspace{2cm}(1) $$當 $$\lambda_{ij}=\begin{cases} 0,&\text {if i=j} \\ 1,&\text {otherwise}\end{cases} \hspace{2cm}(2) $$有\]
R(c|x)=1-P(c|x) \hspace{2cm}(3)
\[  所以對於樣本$x$,我們要選擇使期望損失最小的標記$c$,即$minR(c|x)$,等價於$maxP(c|x)$,這就是最大后驗概率的含義,也是貝葉斯決策論。   根據貝葉斯定理, $$P(c|x)=\frac{P(c)P(x|c)}{P(x)} \hspace{2cm}(4) $$  因此,估計$P(c|x)$的問題就轉換為如何基於訓練數據$D$來估計先驗概率$P(c)$和似然概率$P(x|c)$。一般來說,先驗概率$P(c)$可通過各類樣本出現的頻率來估計,而似然概率$P(x|c)$由於涉及關於$x$所有屬性的聯合概率,難以直接根據樣本出現的頻率進行估計。   假設$P(x|c)$具有確定的形式並且被參數向量$\theta_c$唯一確定,我們可以將$P(x|c)$記為$P(x|\theta_c)$。對於參數$\theta_c$的估計,統計學界有兩個不同的學派,頻率主義認為參數雖然未知,但卻是客觀存在的固定值,因此,可通過優化似然函數等准則確定。令$D_c$表示訓練集$D$中第$c$類樣本組成的集合,假設這些樣本是獨立同分布的(注意這里是樣本),則參數$\theta_c$對於數據集$D$的似然是 $$P(D_c|\theta_c)=\prod_{x\in D_c}P(x|\theta_c) \hspace{2cm}(5) $$對$\theta_c$進行極大似然估計,就是去尋找能最大化似然$P(D_c|\theta_c)$的參數值$\widehat{\theta}_c$,即 $$\widehat{\theta}_c=\mathop{arg\text{ }max}_{\theta_c}P(D_c|\theta_c) \hspace{2cm}(6) $$。這就是極大似然估計(MLE)的方法,這種估計結果的准確性嚴重依賴於所假設的概率分布形式是否符合潛在的真實數據分布。   除頻率學派外的另一個學派就是貝葉斯學派,貝葉斯學派認為參數是未觀察到的隨機變量,其本身也可能有分布,因此,可假定參數服從一個先驗分布,然后基於觀測到的數據來計算參數的后驗分布,由此產生了朴素貝葉斯分類器。   朴素貝葉斯分類器假設對已知類別,所有屬性相互獨立(注意是屬性),換言之,假設每個屬性獨立地對分類結果發生影響。於是, $$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod^d_{i=1}P(x_i|c) \hspace{2cm}(7) $$其中$d$為屬性數目,$x_i$為$x$在第$i$個屬性上的取值。由於對於所有類別來說$P(x)$相同,因此有 $$h_{nb}(x)=\mathop{arg\text{ }max}_{c \in y} P(c)\prod^d_{i=1}P(x_i|c) \hspace{2cm}(8) $$這就是朴素貝葉斯分類器的表達式。   當把“屬性獨立”條件放寬,適當考慮一部分屬性鍵的相互以來信息時,就得到了半朴素貝葉斯分類器。   貝葉斯網借助有向無環圖來刻畫屬性之間依賴關系,並使用條件概率表來描述屬性的聯合概率分布,最小描述長度准則(MDL)就是指找到一個能以最短編碼長度描述訓練數據的模型,這里的模型就是指貝葉斯網。\]
