決策論初探【日常筆記】


1. 決策論概念簡介

概率論提供了一個自始至終的數學框架來量化和計算不確定性。當決策論與概率論結合的時候,我們能夠在涉及到不確定性的情況下做出最優的決策。這在模式識別中經常遇到。

假設我們有一個輸入向量x和對應的目標值向量t,我們的目標是對於一個新的x值,預測t。

  • 對於回歸問題,t由連續變量組成
  • 而對於分類問題,t表示類別標簽。

聯合概率分布 p(x, t) 完整地總結了與這些變量相關的不確定性。從訓練數據集中確定 p(x, t) 是推斷(inference)問題的一個例子,並且通常是一個非常難的問題。在一個實際應用中,我們經常必須對 t 的值做出具體的預測,或者更一般地,根據我們對於 t 的可能取值的理解,采取一個具體的動作。這一方面就是決策論的主題。

例如,考慮一個醫療診斷問題。在這個問題中,我們給一個病人拍了X光片,我們想判斷病人是否得了癌症。在這種情形下,輸入向量x是X光片的像素的灰度值集合,輸出變量t表示:

  • 病人患有癌症(記作類C1)
  • 或者不患癌症(記作類C2)

例如,我們可以選擇t = 0表示類C1,選擇t = 1表示類C2。

這樣,一般的推斷問題就變成了確定聯合分布p(x, Ck),或者等價地p(x, t)。它給出了最完整的概率描述。並且我們希望這種選擇在某些情況下是最優的。這是決策步驟,是決策論的主題,告訴我們在給定合適的概率的前提下,如何進行最優的決策

在給出一個更詳細的分析之前,讓我們首先非形式化地考慮一下概率論如何在做決策時起作用。當我們得到一個新病人的X光片x時,我們的目標是判斷這個X光片屬於兩類中的哪一類。 我們感興趣的是在給定這個圖像的前提下,兩個類的概率,即p(Ck | x)。使用貝葉斯定理,這些概率可以用下面的形式表示

如果我們的目標是最小化把x分到錯誤類別中的可能性,那么根據直覺,我們要選擇有最大后驗概率的類別。 

從上圖中可以看到兩個類別的聯合概率分布 p(x,Ck) 與 x 的關系,以及決策邊界 x = xˆ。

  • x ≥ xˆ 的值被分類為C2,因此屬於決策區域R2
  • x < xˆ 的值被分類為C1,屬於區域R1。

錯誤出現在藍色、綠色和紅色區域,

  • 對於 x < xˆ,錯誤的來源是將屬於類別C2的點錯分到類別C1(表示為紅色區域與綠色區域的總和)
  • 對於 x ≥ xˆ 的點,錯誤的來源是將屬於類別C1的點錯分到類別C2(表示為藍色區域)

當我們改變決策區域的位置 xˆ 時,綠色區域和藍色區域的總面積是一個常數,而紅色區域的面積發生改變。xˆ 的最優選擇是 p(x, C1) 的曲線與 p(x, C2) 的曲線相交,對應於 xˆ = x0,因為此時紅色區域消失。這等價於最小化錯誤分類率的決策規則,這個規則將 x 分配到具有最大的后驗概率p(Ck | x)的區域中。

筆者注

在模式識別算法項目中,上面這種正負聯合概率重疊的現象,其本質就是代表問題的數據本身線性不可分問題。不管模型通過數據驅動調參如何確定分界面,綠色部分和藍色部分都是恆存在的,這就意味着不論如何調參,模型的訓練誤差是恆存在的。自然地,這樣得到的模型,在面對新樣本進行預測的時候,誤差也是不可完全避免的。

訓練數據本身存在的線性不可分問題,才是數據項目中真正需要重點關注的問題之一。可以這么說,ML本質是一個數學工具,不論是極大似然估計、最小誤差估計、反向梯度傳播算法,它們的核心目標都是幫我們找到上圖中的 x0 分界面,即消除紅色部分的誤差問題。

但是影響我們模型泛化能力的主要原因,往往是綠色和藍色部分,是由於數據本身的信息質量,以及特征工程的設計缺陷導致的

 

2. 最小化錯誤分類率 

假定我們的目標很簡單,即盡可能少地作出錯誤分類。我們需要一個規則來把每個x的值分到一個合適的類別。這種規則將會把輸入空間切分成不同的區域Rk ,這種區域被稱為決策區域(decision region)

每個類別都有一個決策區域,區域Rk中的所有點都被分到Ck類。決策區域間的邊界被叫做決策邊界(decision boundary)或者決策面(decision surface)

注意,每一個決策區域未必是連續的,可以由若干個分離的區域組成。

為了找到最優的決策規則,首先考慮兩類的情形,就像癌症問題的例子中那樣。如果我們把屬於C1類的輸入向量分到了C2類(或者相反),那么我們就犯了預測錯誤。這種事情發生的概率為:

從技術上,我們可以隨意選擇把點 x 分到兩類中的某一類的決策規則。但是很明顯,為了最小化p(mistake), 我們對於x的分類結果應該讓上式的被積函數盡量小。

因此,如果對於給定的x值,如果p(x, C1) > p(x, C2),那么我們就把x分到類別C1中。根據概率的乘積規則,我們 有p(x,Ck) = p(Ck | x)p(x)。由於因子p(x)對於兩項都相同,因此我們可以這樣表述:

如果我們把每個 x 分配到后驗概率 p(Ck | x) 最大的類別中,那么我們分類錯誤的概率就會最小。

對於一元輸入變量x的二分類問題,結果如下圖所示。

 

3. 最小化期望損失 

對於許多應用,我們的目標要比單純地最小化錯誤分類的數量更加復雜。讓我們再次考慮醫療診斷的問題。我們注意到,如果已給沒有患癌症的病人被錯誤地診斷為患病,結果可能給病 人帶來一些壓力,並且病人可能需要進一步確診。相反,如果患癌症的病人被診斷為健康,結果可能會因為缺少治療而使病人過早死亡。因此這兩種錯誤的結果是相當不同的。很明顯,對於第二種錯誤,我們最好少犯,甚至由於少犯第二種錯誤會導致第一種錯誤增加也沒關系。

我們可以通過損失函數(loss function)來形式化地描述這個問題。損失函數也被稱為代價函數(cost function),是對於所有可能的決策或者動作可能產生的損失的一種整體的度量。我們的目標是最小化整體的損失。

假設對於新的x的值,真實的類別為Ck,我們把x分類為Cj(其中j可能與k相等,也可能不相等)。這樣做的結果是,我們會造成某種程度的損失,記作Lkj ,它可以看成損失矩陣(loss matrix)的第k, j個元素。

例如, 在癌症的例子中,我們可能有下圖所示的損失矩陣。

這個特別的損失矩陣表明,如果我們做出了正確的決策,那么不會造成損失。如果健康人被診斷為患有癌症,那么損失為1。但是如果一 個患有癌症的病人被診斷為健康,那么損失為1000。

最優解是使損失函數最小的解。對於一個給定的輸入向量x,我們對於真實類別的不確定性通過聯合概率分布p(x, Ck)表示。因此,期望損失定義為:

每一個x可以被獨立地分到決策區域Rj中。我們的目標是選擇區域Rj,來最小化期望損失。這表明,對於每個x,我們要最小化 ∑Lkjp(x, Ck)。

我們可以使用乘積規則 p(x,Ck) = p(Ck | x)p(x)來消除共同因子p(x)。因此,最小化期望損失的決策規則是對於每個新的x,把它分到能使下式取得最小值的第 j 類:

 

4. 拒絕選項 

我們知道,在發生分類錯誤的輸入空間中、或者遇到完全未知的新樣本時(相比於訓練集),后驗概率p(Ck | x)通常遠小於1。

在這些決策區域中,類別的歸屬相對不確定。對於這種困難的情況,避免做出決策可能是更合適的選擇。這樣會使得模型的分類錯誤率降低。這被稱為拒絕選項(reject option)

例如,在我們假想的醫療例子中,一種合適的做法是,使用自動化的系統來對那些幾乎沒有疑問的X光片進行分類,然后把不容易分類的X光片留給人類的專家。

我們可以用這種方式來達到這個目的:引入一個閾值θ,拒絕后驗概率p(Ck | x)的最大值小於等於θ的那些輸入x。

下圖說明了一元輸入變量x的二分類問題的情形。

注意,令θ = 1會使所有的樣本都被拒絕,而如果有K個類別,那么令θ < 1/K 將會確保沒有樣本被拒絕。因此被拒絕的樣本比例由θ的值控制。

我們可以很容易地把拒絕准則推廣到最小化期望損失的情形。那種情形下,我們已知一個損失矩陣,這個矩陣考慮了拒絕決策所帶來的損失。 

 

5. 推斷和決策 

我們已經把分類問題划分成了兩個階段:

  • 推斷(inference)階段
  • 決策(decision)階段

在推斷階段,我們使用訓練數據學習p(Ck | x)的模型。在接下來的決策階段,我們使用這些后驗概率來進行最優的分類。

另一種可能的方法是,同時解決兩個問題,即簡單地學習一個函數, 將輸入x直接映射為決策。這樣的函數被稱為判別函數(discriminant function)。

事實上,我們可以區分出三種不同的方法來解決決策問題,這三種方法都已經在實際應用問題中被使用。 

0x1:決策問題的三種不同解決方法

1、生成式方法

首先對於每個類別Ck,獨立地確定類條件密度p(x | Ck)。這是一個推斷問題。然后,推斷先驗類概率p(Ck)。之后,使用貝葉斯定理:

求出后驗類概率p(Ck | x)。和往常一樣,貝葉斯定理的分母可以用分子中出現的項表示,因為:

等價地,我們可以直接對聯合概率分布p(x, Ck)建模,然后歸一化,得到后驗概率。

得到后驗概率之后,我們可以使用決策論來確定每個新的輸入x的類別。

顯式地或者隱式地對輸入以及輸出進行建模的方法被稱為生成式模型(generative model),因為通過對生成式模型進行模擬采樣(例如蒙特卡洛采樣),可以用來人工生成出輸入空間的數據點。 

2、判別式方法

首先解決確定后驗類密度p(Ck | x)這一推斷問題,接下來使用決策論來對新的輸入x進行分類。這種直接對后驗概率建模的方法被稱為判別式模型(discriminative models)

3、判別函數方法

找到一個函數f(x),被稱為判別函數。這個函數把每個輸入x直接映射為類別標簽。

例如,在二分類問題中,f(·)可能是一個二元的數值,

  • f = 0表示類別C1
  • f = 1表示類別C2

0x2:三種不同解決方法的優缺點

讓我們考慮一下這三種方法的相對優勢。方法(a)需要求解的東西最多,因為它涉及到尋找在xCk 上的聯合概率分布。對於許多應用,x的維度很高,這會導致我們需要大量的訓練數據才能在合理的精度下確定類條件概率密度。注意,先驗概率p(Ck )經常能夠根據訓練數據集里的 每個類別的數據點所占的比例簡單地估計出來。

但是,方法(a)的一個優點是,它能夠通過公式

求出數據的邊緣概率密度p(x)。這對於檢測模型中具有低概率的新數據點很有用,對於這些點,模型的預測准確率可能會很低。這種技術被稱為離群點檢測(outlier detection)或者異常檢測(novelty detection)。

然而,如果我們只想進行分類的決策,那么這種方法會浪費計算資源。並且,實際上我們只是想求出后驗概率p(Ck | x)(可以直接通過方法(b)求出),但是為了求出它,這種方法需要大量的數據來尋找聯合概率p(x, Ck )

事實上,類條件密度可能包含很多對於后驗概率幾乎沒有影響的結構,如下圖所示。

具有一元輸入變量x的兩個類別的類條件概率密度(左圖)以及對應的后驗概率密度(右圖)。 注意,左圖中,藍色曲線表示類條件概率密度p(x | C1),它的峰值對於后驗概率分布沒有影響。右圖中的垂直綠色直線表示給出最小誤分類率的x的決策邊界。我們假設先驗概率分布p(C1 )p(C2 )是相等的

一種更簡單的方法是方法(c)。這種方法中,我們使用訓練數據來尋找將每個x直接映射為類別標簽的判別函數f (x)

這樣,我們就把推斷階段和決策階段結合到一個學習問題中了。在上圖給出的例子中,這對應於綠色豎直線給出的x的值,因為這是給出最小錯誤分類概率的決策邊界。

但是,使用方法(c),我們不再能夠接觸到后驗概率p(Ck | x),而是只能得到 0 or 1 的布爾判別結果

有很多強烈的理由需要計算后驗概率,即使我們接下來要使用后驗概率來進行決策。這些理由包括:

  • 最小化風險。考慮這樣一個問題,問題中損失矩陣的元素時時刻刻都被修改(例如金融應用中可能出現的情況)。如果我們知道后驗概率,我們只需要恰當地修改期望損失公式所定義的最小風險決策准則即可。如果我們只有一個判別准則,那么損失矩陣的任何改變都需要我們返回訓練數據,重新解決分類問題。

  • 拒絕選項。如果給定被拒絕的數據點所占的比例,后驗概率讓我們能夠確定最小化誤分類率的拒絕標准,或者在更一般的情況下確定最小化期望損失的拒絕標准。

  • 補償類先驗概率。重新考慮我們的醫療X光問題。假定我們已經從普通人群中收集了大量 的X光片,用作訓練數據,用來建立一個自動診斷系統。由於癌症在普通人群中是很少見的,我們可能發現1000個樣本中只有一個對應癌症。如果我們使用這樣的數據集來訓練一 個模型,由於癌症類別所占的比例很小,我們會遇到很困難的問題。例如,一個將所有的點都判定為正常類別的分類器就已經能夠達到99.9%的精度。避免這種平凡解是很困難的。並且,即使是一個大的數據集,只有很少的X光片對應着癌症,因此學習算法不會接收到很多這種X光片,因此不太可能具有很好的泛化性。一個平衡的數據集里,我們已經 從每個類別中選擇了相等數量的樣本,這讓我們能夠找到一個更加准確的模型。然而,我 們之后就必須補償修改訓練數據所造成的影響。假設我們已經使用這種修改后的數據,找 到了后驗概率的模型。根據公式(1.82)的貝葉斯定理,我們看到后驗概率正比於先驗概率,而先驗概率可以表示為每個類別的數據點所占的比例。因此我們可以把從人造的平衡數據中得到的后驗概率除以數據集里的類比例,再乘以我們想要應用模型的目標人群中類別的比例即可。最后,我們需要歸一化來保證新的后驗概率之和等於1。注意,如果我們直接學習一個判別函數而不確定后驗概率,這個步驟就無法進行。

    組合模型。對於復雜的應用來說,我們可能希望把問題分解成若干個小的子問題,每個子 問題都可以通過一個獨立的模型解決。例如,在我們假想的醫療診斷問題中,我們可能有來自血液檢查的數據,以及X光片。我們不把所有的這種同樣類型的信息集中到一個巨大的輸入空間中,而是建立一個系統來表示X光片而另一個系統來表示血液數據。這樣做效率更高。只要兩個模型都給出類別的后驗概率,我們就能夠使用概率的規則系統化地結合輸出。

     

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM