一.作為統計判別問題的模式分類
模式識別的目的就是要確定某一個給定的模式樣本屬於哪一類。 可以通過對被識別對象的多次觀察和測量,構成特征向量,並將其作為某一個判決規則的輸入,按此規則來對樣本進行分類。在獲取模式的觀測值時,有些事物具有確定的因果關系,即在一定的條件下,它必然會發生或必然不發生。但在現實世界中,由許多客觀現象的發生,就每一次觀察和測量來說,即使在基本條件保持不變的情況下也具有不確定性。 只有在大量重復的觀察下,其結果才能呈現出某種規律性,即對它們觀察到的特征具有統計特性。 特征值不再是一個確定的向量,而是一個隨機向量。 此時,只能利用模式集的統計特性來分類,以使分類器發生錯誤的概率最小。
二.貝葉斯判別原則
2.1 兩類模式集的分類
目的:要確定x是屬於ω1類還是ω2類,要看x是來自於ω1類的概率大還是來自ω2類的概率大。
2.2 貝葉斯判別規則
對於自然屬性是屬於ωi類的模式x來說,它來自ωi類的概率應為P(ωi |x)
根據概率判別規則,有:
由貝葉斯定理,后驗概率P(ωi | x)可由類別ωi的先驗概率P(ωi)和x的條件概率密度p(x | ωi)來計算,即:
這里p(x | ωi)也稱為似然函數。將該式代入上述判別式,有:
或
其中,l12稱為似然比,P(ω2)/P(ω1)=θ21稱為似然比的判決閾值,此判別稱為貝葉斯判別。
2.3 貝葉斯判別示例
問題描述:
對某一地震高發區進行統計,地震以ω1類表示,正常以ω2類表示 統計的時間區間內, 每周發生地震的概率為20%,即P(ω1)=0.2,當然P(ω2)=1-0.2=0.8 在任意一周,要判斷該地區是否會有地震發生。顯然,因為P(ω2)> P(ω1),只能說是正常的可能性大。如要進行判斷,只能其它觀察現象來實現。通常地震與生物異常反應之間有一定的聯系。
若用生物是否有異常反應這一觀察現象來對地震進行預測,生物是否異常這一結果以模式x代表,這里x為一維特征,且只有x=“異常”和x=“正常”兩種結果。假設根據觀測記錄,發現這種方法有以下統計結果:
地震前一周內出現生物異常反應的概率=0.6,即p(x=異常| ω1)=0.6
地震前一周內出現生物正常反應的概率=0.4,即p(x=正常| ω1)=0.4
一周內沒有發生地震但也出現了生物異常的概率=0.1,即p(x=異常| ω2)=0.1
一周內沒有發生地震時,生物正常的概率=0.9,即p(x=正常| ω2)=0.9
若某日觀察到明顯的生物異常反應現象,一周內發生地震的概率為多少,即求P(ω1 | x=異常)=?
解決過程:
三.最小風險貝葉斯決策
3.1 問題提出
在決策中,除了關心決策的正確與否,有時我們更關心錯誤的決策將帶來的損失。比如在判斷細胞是否為癌細胞的決策中,
若把正常細胞判定為癌細胞,將會增加患者的負擔和不必要的治療,
但若把癌細胞判定為正常細胞,將會導致患者失去寶貴的發現和治療癌症的機會,甚至會影響患者的生命。
這兩種類型的決策錯誤所產生的代價是不同的。考慮各種錯誤造成損失不同時的一種最優決策,就是所謂的最小風險貝葉斯決策。
3.2 損失函數和決策表
設對於實際狀態為wj的向量x采取決策αi所帶來的損失為

該函數稱為損失函數,通常它可以用表格的形式給出,叫做決策表。需要知道,最小風險貝葉斯決策中的決策表是需要人為確定的,決策表不同會導致決策結果的不同,因此在實際應用中,需要認真分析所研究問題的內在特點和分類目的,與應用領域的專家共同設計出適當的決策表,才能保證模式識別發揮有效的作用。
3.3 計算步驟
對於一個實際問題,對於樣本x,最小風險貝葉斯決策的計算步驟如下:
(1)利用貝葉斯公式計算后驗概率:
其中要求先驗概率和類條件概率已知。
(2)利用決策表,計算條件風險:

(3)決策:選擇風險最小的決策,即:
(4)公式的整合規范(換一種表達)
說明:==
==
3.4 示例1
現在用之前的判別細胞是否為癌細胞為例。狀態1為正常細胞,狀態2為癌細胞,假設:
(1)利用貝葉斯公式計算后驗概率:
(2)利用決策表,計算條件風險:
(3)決策:選擇風險最小的決策,即:
即判別為1類的風險更大,根據最小風險決策,應將其判別為2類,即癌細胞。
由此可見,因為對兩類錯誤帶來的風險的認識不同,從而產生了與之前不同的決策。顯然,但對不同類判決的錯誤風險一致時,最小風險貝葉斯決策就轉化成最小錯誤率貝葉斯決策。最小錯誤貝葉斯決策可以看成是最小風險貝葉斯決策的一個特例。
3.5 兩類(M=2)情況的貝葉斯最小風險判別
選M=2,即全部的模式樣本只有ω1和ω2兩類,要求分類器將模式樣本分到ω1和ω2兩類中,則平均風險可寫成:
當分類器將x判別為ω1時:
當分類器將x判別為ω2時:
若r1(x)<r2(x),則x被判定為屬於ω1,此時:
3.6 兩類(M=2)情況的貝葉斯最小風險判別實例
如圖所示為一信號通過一受噪聲干擾的信道。信道輸入信號為0或1,噪聲為高斯型,其均值μ=0,方差為б2。信道輸出為x,試求最優的判別規則,以區分x是0還是1。設送0為ω1類,送1為ω2類,從觀察值x的基礎上判別它是0還是1。直觀上可以看出,若x<0.5應判為0,x>0.5應判為1。
用貝葉斯判別條件分析:
設信號送0的先驗概率為P(0),送1的先驗概率為P(1),L的取值為:這里a1和a2分別對應於輸入狀態為0和1時的正確判別,L12對應於實際上是ω1類但被判成ω2類(a2)時的代價,L21對應於實際上是ω2類但被判成ω1類(a1)時的代價。正確判別時L取0。
當輸入信號為0時,受噪聲為正態分布N(0,б2)的干擾,其幅值大小的概率密度為:
當輸入信號為1時:
(1)
(2)若取L21=L12=1,P(1)=P(0),則x<1/2判為0。
(3)若無噪聲干擾,即б2=0,則x<1/2判為0。