貝葉斯分類器
Category: 機器學習聽課筆記
Last Edited: Oct 10, 2018 9:43 PM
Tags: 聽課筆記,機器學習
注:本文非完全原創,很多公式和例子借鑒於各位前輩。
先導知識
-
貝葉斯決策論:貝葉斯決策論考慮如何基於已知的概率和誤判損失來選擇最優的類別標記。
-
先驗概率(prior probability):是指根據以往經驗和分析得到的概率。即沒有考慮原因,在獲得數據和依據之前就對概率進行了猜測,得到了概率。
-
似然函數(likelihood function):似然用來描述已知隨機變量輸出結果時,未知參數的可能取值。似然函數關注的是由已知的結果和某固有屬性的關系,而不是結果或者原因的概率,所以稱似然是對固有屬性的擬合,所以不能稱之為概率。
-
后驗概率(Posterior probability):是在相關證據或者背景給定並納入考慮之后的條件概率。是由因及果的概率。
-
先驗分布:根據一般的經驗認為隨機變量應該滿足的分布
后驗分布:通過當前訓練數據修正的隨機變量的分布,比先驗分布更符合當前數據
似然估計:已知訓練數據,給定了模型,通過讓似然性極大化估計模型參數的一種方法
后驗分布往往是基於先驗分布和極大似然估計計算出來的。
-
先驗、似然、后驗的區分總結:
1)先驗——根據若干年的統計(經驗)或者氣候(常識),某地方下雨的概率;
2)似然——下雨(果)的時候有烏雲(因/證據/觀察的數據)的概率,即已經有了果,對證據發生的可能性描述;
3)后驗——根據天上有烏雲(原因或者證據/觀察數據),下雨(結果)的概率;
后驗 ~ 先驗*似然 : 存在下雨的可能(先驗),下雨之前會有烏雲(似然)~ 通過現在有烏雲推斷下雨概率(后驗);
或者:
設定背景:酒至半酣,忽陰雲漠漠,驟雨將至。
情景一:“天不會下雨的,歷史上這里下雨的概率是20%”----先驗概率“但陰雲漠漠時,下雨的概率是80%”----后驗概率
情景二:“飛飛別急着走啊,歷史上酒桌上死人的概率只有5%“----先驗概率”可他是曹操啊,夢里都殺人“----后驗概率
-
最大似然估計(Maximum Likelihood Estimation):最大似然估計是利用已知的樣本的結果,在使用某個模型的基礎上,反推最有可能導致這樣結果的模型參數值。
-
貝葉斯公式:
-
在通常情況下,“事件A在事件B發生的條件下的概率”與“事件B在事件A發生的條件下的概率”是不一樣的,但兩者的關系是確定的,貝葉斯公式研究的就是這種關系。
-
公式:
-
解釋:
- P(A|B)為后驗概率,即指事件B發生的條件下事件A發生的概率,因為該概率得自於B的取值而稱為A的后驗概率。
- P(A)為先驗概率(邊緣概率),即A的發生不用考慮B的任何方面的因素。
- P(B|A)為條件概率(類條件概率密度),即指在事件A發生的條件下事件B發生的概率,和1一樣被稱為B的后驗概率。
—>稱為似然
- P(B)為”用於歸一化的證據因子(evidence)“可以當成一個已知的量,在貝葉斯分類器種P(B)的值與分類無關。
-
-
正態分布(高斯分布):
-
多源正態分布:
- 個人理解:將二分類的高斯分布擴展為多個分類的問題。定義詳見:https://www.cnblogs.com/bingjianing/p/9117330.html
- 包含了標准化、歸化等過程。

左圖為多源高斯分布示意 右圖為多遠高斯分布的歸化過程
(以上為先導概率論知識)
貝葉斯分類器
-
貝葉斯決策論:
- 前提:所有相關概率已知
- 關注點:誤判損失
-
期望損失(風險):在N種可能的標記種,λij是指將Cj誤分為Ci時所產生的損失。基於后驗概率:
P(ci|x)
得到誤分為Ci時所產生的期望損失,這個損失也叫做”風險“,當我們制定一個准則h使得對於每一個樣本x風險最小時(此時整個樣本的總體風險R(h*)
(貝葉斯風險)也達到最小),稱h為貝葉斯最優分類器。期望損失(風險)表達式
總體風險表達式
使每個樣本的風險最小
-
后驗概率最大化與風險最小化:對於二分類問題,λ要么等於0要么等於1
-
此時所以條件風險(該條件下的風險)為
-
所以當分類錯誤率達到最小時,需要后驗概率P最小,繼而使后驗概率最大化就是使風險最小化。即:
-
-
由3和貝葉斯公式得到,想獲得最小風險需要獲得最大的后驗概率,想獲得最大的后驗概率需要獲得最大的似然。以此引導出——>最大似然估計。
最大似然估計(Maximum Likelihood Estimation)
-
首先,我們的目標是:
P(x|c)
這一似然概率,根據頻率學派的觀點:參數雖然未知,當存在客觀的固定值。
我們假設似然概率被一個確定的θc控制,你那么我們的目標就是通過訓練集來確定θ c的值,從而確定似然概率的值。
-
假設Dc表示訓練集D上的第c類樣本的集合,他們滿足條件:樣本服從獨立分布,則參數θc對於數據集Dc的似然可以表示為:
形如:P(A|B)=P(AB)/P(B)
兩邊取對數(對數似然):
此時,θc最大時的最大似然估計表達式為:
不足:該方法嚴重依賴假設:存在客觀的固定值。
-
MLE估計結果的有偏和無偏性:
- 對於均值:無偏
- 對於反差:有偏,1/n要改為1/(n-1)
-
最大似然估計在樣本不足的情況下會出現一個問題:假設我拋10次硬幣,有7次是正面朝上,那么我的最大似然估計的概率就是0.7,但是根據常識我們的概率應該靠近0.5才對,這里就需要考慮先驗概率。——>引出最大后驗概率估計。
最大后驗概率(Maximum a posteriori estimation)
-
MAP和MLE的區別:最大似然估計是求參數θ, 使似然函數P(x|θ)最大。最大后驗概率估計則是想求θ使P(x|θ)P(θ)最大。求得的θ不單單讓似然函數大,θ自己出現的先驗概率也得大。
-
MAP的基本思想仍然是基於貝葉斯公式本身,MLE的目的是求出最大的似然估計值,而MAP的目的是求出最大的后驗概率本身,在MLE的基礎上加上了一個先驗概率,他的表達式為:
-
主要區別在於貝葉斯學派和頻率學派的區別。
朴素貝葉斯分類器
- 引導:
- 如果有d個樣本,每個樣本有2種狀態0或1,
維度為k????,
那么他們的組合有2^dk-1種,但是當所有條件獨立時,他們的結果有(2-1)dk-1種,使得參數大大減少。 - 所以,在該條件成立之上的朴素貝葉斯之所以叫做”朴素“是因為他需要滿足”所有條件獨立“這個條件。
- 如果有d個樣本,每個樣本有2種狀態0或1,
- 朴素貝葉斯分類器所依賴的概率模型就是MAP和MLE。
- 應用:文本分類/垃圾郵件篩選等。