貝葉斯公式與最大后驗估計(MAP)


1, 頻率派思想

頻率派思想認為概率乃事情發生的頻率,概率是一固定常量,是固定不變的

2, 最大似然估計

假設有100個水果由蘋果和梨混在一起,具體分配比例未知,於是你去隨機抽取10次,抽到蘋果標記為1, 抽到梨標記為0,每次標記之后將抽到的水果放回

最終統計的結果如下:

蘋果 8次,梨2次

據此,我可以推斷出蘋果的比例嗎?

最大似然估計看待這個問題的思路是:

1、1、0、1、1、0、1、1、1、1

每次抽樣都是獨立的隨機過程,抽到蘋果的概率為 p, 抽到梨的概率為 1 - p,那么抽到8次蘋果,2次梨的概率為:

$P_{x} = p^{8}(1 - p)^{2}$

為什么我會抽到8次蘋果、2次梨,為什么不是7/3次或其他的組合形式,這背后肯定有股神秘力量(上帝)在給我暗示:你這一次抽到的是8/2的組合,你下一次也極有可能還是會抽到8/2組合,你每次都會以最高的概率抽到 8/2的組合,因為事實的真相就是8/2組合

有了這個思想,我們可以求解, 當p = ? 時, 以8/2組合抽取,概率 $P_{x}$ 是最大的(極大似然)

$\begin{equation}
P_{x} = \mathop{\arg\max}_{p} \ \ p^{8}(1-p)^{2}
\end{equation}$

剩下的就是 取對數 -> 求導 -> 求0值, 得到

p = 80%

再來回顧一下解題的思路: 做實驗之前,p 就是一固定的數值了(雖然具體值是什么我們還不知道),通過實驗,我們得到了上帝的暗示,采用某種方式(最大似然估計),來找到這個p

3, 貝葉斯思想

貝葉斯派將概率解釋成對事情發生的信心,是一個變量,有很大主觀成分

先來看一下貝葉斯公式的定義:

$p(θ|x) = \frac{p(x|θ)p(θ)}{p(x)} = \frac{p(x|θ)p(θ)}{\sum^{k}_{i = 1}{p(x|θ_{i})p(θ_{i})}}$

只看前半部分:

$p(θ|x) = p(θ)\frac{p(x|θ)}{p(x)}$

貝葉斯的思想過程是這樣的: 

起初我並不知道θ的具體值是多少,同時θ還是一變量, 它的取值服從某種概率分布,比如說拋硬幣實驗,假如我說投硬幣正面概率為0.6(個人主觀臆斷,有出錯的可能), 在說這句話的同時,其實還有隱台詞: 投硬幣得到正面的概率θ是一個飄忽不定的值,它最有可能取0.6,其次還可能為0.4、0.5、0.3、0.7.....,只是取其他值的可能性比較小,θ(正面的概率)的概率分布可能近似於一個高斯模型。

現在進行第一次投硬幣,假如結果為正,從直覺上看,本次投到的結果為正,將會大大增加我對θ(投幣結果為正)的信念,具體是怎么影響的呢?

首先來看$p(x|θ)$, 通過前面的講解,我們知道這是一個似然函數模型,意為: 我在用這套θ參數的情況下,將會以多大概率(likehood)取到當前這個樣本

當θ = 1.0時, $p(x|θ) = θ^{1}(1 - θ)^{0} = 1$

當θ = 0.6時, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0.6$

當θ = 0.5時, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0.5$

當θ = 0.0時, $p(x|θ) = θ^{1}(1 - θ)^{0} = 0$

再來看 $p(x)$,$p(x)$ 代表的是樣本x發生的實際概率, 結合本例來講,這里$p(x = 1)$代表的是取到一次正面的概率,通過大量實驗,可以算出 $p(x = 1) = 0.5$(地球人都知道,隨機拋一個硬幣,正面朝上的概率為0.5)

現在把他們的關系整理一下:

θ

P(θ)

p(x|θ)

P(x)

p(x|θ)/ P(x)

P(θ)*p(x|θ)/ P(x)

1

0

1

0.5

2

0

0.6

3.99

0.6

0.5

1.1

4.389

0.5

2.42

0.5

0.5

1

2.42

0

0

0

0.5

0

0

 

 

 

 

 

 

 

 

如果我們將第四列用下面形式表示:

$\frac{p(x|θ)}{P(x)} = \frac{likely}{really} = \frac{本參數下的似然概率}{實際出現的概率}  = 信心增強系數$

那么我們可以將貝葉斯公式理解為:

$已知x前提下對θ的估計 = 對θ的初步估計 * 信心增強系數$

修正倍數 = 1時,表示本參數下的預測概率 = 實際出現的概率,對θ的初步估計比較適中,不需要調整

修正倍數 > 1時,表示本參數下的預測概率 > 實際出現的概率,大大增強了我的信心,對θ的確定性我覺得可以再大點

修正倍數 < 1時,表示本參數下的預測概率 < 實際出現的概率,對我是個沉重的打擊,對θ的確定性我也沒那么多把握了

結合本實驗:

假設 θ = 1,即拋硬幣為正的概率為1(永遠都得到正面), 但是假設畢竟是假設,我對此也很沒把握,所以p(θ) = 0(或接近0的值),通過一次實驗,觀察到硬幣果然是正,這個實驗結果增加了我對θ = 1(正的概率為1)的信念,增強系數為2

假設 θ = 0.6,對此我有很大把握,所以p(θ) = 3.99,於是我用θ = 0.6這一套參數去做了一個似然估計,發現似然估計比真實的概率更好(更接近投一次硬幣為正這個事實),於是乎,我更加堅信θ = 0.6,增強系數為1.1

假設 θ = 0,對此我又沒多大把握,所以p(θ) = 0(或接近0的值),通過一次實驗,觀察到硬幣是正,我覺得θ = 0(投硬幣為正概率為0)更不靠譜了,於是對我原來的把握度,我需要再降低一個檔次,增強系數為0

現在我進行第二次試驗,再次出現正面為上的結果

θ

P(θ)

p(x = 1,1|θ)

P(x)

p(x= 1,1|θ)/ P(x)

P(θ)*p(x|θ)/ P(x)

1

0

1

0.25

4

0

0.6

3.99

0.36

0.25

1.44

5.7456

0.5

2.42

0.25

0.25

1

2.42

0

0

0

0.25

0

0

 

 

 

 

 

 

 

 

可以看到,我對θ = 1的信心是越來越大了,對其他case的信心也有所調整

第三次實驗,拋硬幣得到反面為上的結果

θ

P(θ)

p(x = 1,1,0|θ)

P(x)

p(x= 1,1,0|θ)/ P(x)

P(θ)*p(x|θ)/ P(x)

1

0

0

0.125

0

0

0.6

3.99

0.144

0.125

1.152

4.59648

0.5

2.42

0.125

0.125

1

2.42

0

0

0

0.125

0

0

 

 

 

 

 

 

 

 

像這樣我們可以重復做100次實驗,假設得到正的次數為51次,反的次數為49次

θ

P(θ)

p(x|θ)

P(x)

p(x|θ)/ P(x)

P(θ)*p(x|θ)/ P(x)

1

0

0

$0.5^{51}0.5^{49}$

0

0

0.6

3.99

$0.6^{51}0.4^{49}$

$0.5^{51}0.5^{49}$

0.195

0.777

0.5

2.42

$0.5^{51}0.5^{49}$

$0.5^{51}0.5^{49}$

1

2.42

0

0

0

$0.5^{51}0.5^{49}$

0

0

 

 

 

 

 

 

 

 

隨着樣本的增多,對$p(θ|x)$會越來越集中,且最終的結果與實驗數據保持一致(θ = 0.5附近)

經過100次拋幣實驗后的后驗概率分布圖如上所示,最大概率大概在 θ = 0.53 的地方取得

現在來看一個問題:在我們不斷嘗試調整θ的過程中,列表其他項都會跟着改變,唯獨p(x)那一列不會改變,這里需要用頻率派的唯物主義觀點來解釋,結合本實驗,p(x)代表取到當前實驗數據的概率大小,這是客觀事實,只能通過大量實驗統計或者借用上帝視角把它算出來(沒錯,我就是作弊了)

既然p(x)是固定不變的值,那么我們就可以得到下面結論:

$p(θ|x) ∝ p(θ)p(x|θ)$

這是理解最大后驗估計(MAP)的關鍵

再來看貝葉斯思想的另外一個例子:

一機器在良好狀態生產合格產品幾率是 90%,在故障狀態生產合格產品幾率是 30%,機器良好的概率是 75%。若一日第一件產品是合格品,那么此日機器良好的概率是多少?

根據韋恩圖,我們可以很方便的解決這個問題

因為題目已經說了,第一件產品是合格品,因而問題的范圍自然就落入了標網格的矩形范圍內

現在要求的是在標網格的矩形范圍內,找出藍色網格的比例(機器良好的概率),剩下的就是求矩形面積之比了

對應的公式模型就是

$p(θ|x) = \frac{p(x|θ)p(θ)}{\sum^{k}_{i = 1}{p(x|θ_{i})p(θ_{i})}}$

這個模型又該怎么理解呢?結合本實例:

p(x|θ)p(θ)作為一個整體來看,它在本例中表示的意思就是: 我們現在關注於機器良好的情況,機器良好且生產良品概率為:

p(x|θ)p(θ) = 75% × 90% = 0.675

第一件產品是合格品,即 x = 合格

我們分析這個合格的來源,它有可能來自良好機器(75%)生產的(90%),也有可能來自故障機器(25%)生產的(30%),那么

p(x) = 75% × 90% + 25%  × 30% = 0,75

兩者相除的結果:

p(θ|x)  = 0.9

觀察這個過程,可以看到分子表達式是分母的一部分,相除可解釋為求比例,導致產品合格的原因有多種,P(良好|合格)的意思是拿出來的是一件合格品,這件合格品是良好機器做出來的幾率(良好機器生產合格品在整個合格品中的比例)。

$P(良好|合格) = \frac{P(良好)P(合格|良好)}{P(良好)P(合格|良好) + P(故障)P(合格|故障)}$

通過這種模型可以很輕易從另一個角度解釋后驗概率p(θ|x),如果偏要借用模板一的方法來理解,過程是這樣:

最開始,我覺得機器良好的概率是75%,機器狀態的概率分布如下所示:

在相應狀態,生產良品的概率(似然)如下:

注意這里的 θ = 機器狀態,θ可能的取值只有故障、良好兩種狀態。現在我做了一個實驗,發現是良品,於是我對機器是良好的信息將會有所調整:

$p(θ|x) = p(initial)\frac{p(likely)}{p(really)} = 75\%\frac{75\% × 90\%}{75\% × 90\% + 25\% × 30\%} = 0.9$

注意拋硬幣實驗中的 θ = 拋硬幣為正的概率,是一個連續變量

機器生產實驗的 θ =  機器狀態,要么是良好,要么是故障,是一個離散變量

4, 最大后驗估計(MAP)

有了前面對貝葉斯思想的描述,我們可以很容易理解最大后驗估計(MAP)

θ是一個連續或離散的變量

p(θ|x)表示我取到了一個數值為x的樣本

取$θ = θ_{1}$時,我將會以$p(x|θ_{1})$取到該樣本,以這種方式取到樣本x的概率占所有可能性p(x)的比例為$p(θ_{1}|x)$

取$θ = θ_{2}$時,我將會以$p(x|θ_{2})$取到該樣本,以這種方式取到樣本x的概率占所有可能性p(x)的比例為$p(θ_{2}|x)$

......................

於是我就想,這個θ到底是多少呢?我知道θ是隨時在變的,我不可能捕捉到它的確切數值,但我可以猜出它最有可能的值,理由是:

我拿到了一組樣本x,我覺得這肯定不是一種偶然,我以這種方式拿到樣本x的概率一定是所有可能性p(x)中最大的,用數學符號簡化一下就是:$p(x|θ)p(θ)$是$p(x)$中最大的,即$p(θ|x)$最大,反過來說,我知道了$p(θ|x)$的最大值,我就知道了θ最可能的取值,以這種思路求θ的過程就稱為最大后驗估計(MAP)

$\mathop{\arg\max}_{θ} p(θ|x) = \mathop{\arg\max}_{θ} \frac{p(x|θ)p(θ)}{p(x)} = \mathop{\arg\max}_{θ} p(x|θ)p(θ)$

其中: $p(θ|x) ∝ p(θ)p(x|θ)$

可以看出,最大后驗估計與最大似然估計的思想方法還是存在很大的相似性的,不同的是:

最大似然估計是根據數據直接直接對θ進行估計

最大后驗估計是在對θ進行估計之前,強加了一個可能性因素p(θ)

至於樣本x的概率p(x),這是個一個客觀存在(只有上帝知道,或做實驗取逼近)的東西,有它沒它對估計值沒有影響

實際上,p(θ) = const是,最大似然與最大后驗估計的結果就是一致的,原因是,我不知道 θ 的值為多少,我也不妄加揣測,我認為它的可能性都是相同的,這樣,我估計和沒估計其實沒什么差別(就好比某經濟學家說明天股市可能大漲,也存在下跌的空間,那說了等於沒說嘛)。

另外,p(θ)帶有極強的主觀臆斷,既然是主觀的,那就有可能犯錯,如果我犯錯了怎么辦呢,解決辦法就是大量實驗,比如剛才的投幣實驗,雖然我先前對p(θ) = 0.6的估計是一個錯誤值,但是通過大量實驗,會對我的估計值進行修正,最終與最大似然估計值接近

如果有一個固執的貝葉斯概率論者堅持認為 

$f(x)=
\begin{cases}
0,&\quad \text{θ =1}\\
1,&\quad \text{θ != 1}
\end{cases}$

那不管怎么做實驗都沒招了~

5, 問題與探討

關於貝葉斯思想與最大后驗估計,我講的就這么多,在理解貝葉斯的過程中,我很多次掉進了慣性思維的坑,通過不斷思考對比,有些我已經找到問題的答案,有些還沒有,現在拿出來給大家分享,有很多只是我的個人見解,不一定正確,希望大家糾正。

第一個問題,網上有很多都用下面模型來描述貝葉斯思想:

$p(癌症|陽性) = \frac{p(癌症)p(陽性|癌症)}{p(癌症)p(陽性|癌症) + p(非癌症)p(陽性|非癌症)}$

直接上,我們覺得檢查出陽性的人基本上就完蛋了,但是通過貝葉斯分析,知道事實並不是這樣的,同時我們還知道了其中的原因:

這里,我有一個疑惑,講述最大后驗估計時,我們說分母 p(x)對估計的結果不會造成影響,但是這里的分母確確實實影響了我們的判斷,何解?

我覺得這個疑問的產生主要是混淆了貝葉斯公式與最大后驗的研究對象。

貝葉斯公式說:我給你一組實驗數據x(陽性), 你給我找出條件下θ(癌症)的概率p(θ|x)

最大后驗估計說:我給你一組實驗數據x(陽性),你給我猜一猜θ到底是得癌症還是未得癌症的幾率大,即取p(θ|x)最大者

貝葉斯公式研究的對象是p(θ|x),這個是跟分母有關的

最大后驗估計研究的對象是θ,這個跟分母是沒有關系的

為什么檢查出陽性,人們總會得出得癌症的錯覺呢?

我覺得這是一個比較有意思的心理問題,慣性思維的思考過程是這樣的:得癌症一般都是能檢查出陽性的,那反過來,檢查出陽性那就是的癌症了

思維上的局限性限制了我們對問題的判斷,實際上生活中我們會經常犯這樣的錯誤

孩子考試不好,我們是不是會經常責怪孩子不努力,而不反思是不是自己沒有好的引導,老師沒有教好,或者這個東西根本不是小孩的興趣方向

女朋友吵架了,我們是不是經常會覺得她脾氣不好,而不想是不是自己對她不關心,或者最近壓力太大了?

。。。。。。。。

 第二個問題,機器生產實驗中,題目說p(良好) = 75%,按照貝葉斯公式的理解,這里不應該是一個帶有主觀臆斷的先驗概率嗎?怎么是一固定值了?而且分母不是做實驗做出來的嗎?這里怎么直接算出來了?

其實,這里說機器良好的概率為75%(p(θ) = 75%),就是借用了上帝視角的說法,分母也是作弊算出來的(對比拋硬幣實驗,如果我一開始就開啟上帝視角,那么正面朝上的概率分布p(θ)將是以0.5為中心,無窮大的脈沖,這樣,做不做實驗,都不會影響我對θ取值的信心了)。

 

第三個問題,拋硬幣模型與機器生產概率模型的對比:

機器良好/故障   —— 硬幣正/反

抽檢結果得到合格 —— 隨機拋出,得到正面

按照這種對應方式,他們應該是處於同一個模型的問題,為什么一個是離散問題,一個是連續問題?

現在假如使用離散模型來分析拋硬幣實驗:

分析在不同朝向下的似然概率:

兩者相乘,會是一種什么結果?

如果這都還能接受,那么我再增加一次實驗, 樣本 x = 正面、正面、反面,這樣在給定 x 的前提下, 不論θ = 正,還是θ = 反, 似然概率 p(x|θ) 都只能為0了(假設硬幣是正,是不可能得到x = 反的樣本的),到底是哪里搞錯了?

貝葉斯思想是一種思維模式——由結果找原因,我們畫后驗概率p(θ|x)的分布圖時,橫軸始終是原因θ,縱軸始終是因果關系的比重,問題是,你選的原因是對的嗎?或者你選擇的原因會導致這種結果嗎?

比如剛才的硬幣實驗,我的原因 = 硬幣為正,會導致 x = 正、正、反的結果嗎?

明白了這個問題,我們再討論一下如何選擇正確的結果~

結合拋硬幣的實驗: 我們得到了一個樣本 x = 正,為什么會產生這個數據,因為拋硬幣有時候會得到正面,有時候會出現反面,”有時候”這個詞對應的就是概率

第四個問題,我們描述拋硬幣實驗的問題時,可算到先驗概率p(θ) = 3.99這樣的數據,起初我還納悶,概率不是一個0~1之間的小數嗎,正面會有3.99這樣的概率。

這又是慣性思維的一個反例,概率這東西其實是作用於離散變量上的一個名詞,當θ為連續變量時,其實是不應該用 θ = 0.6 的概率這個說法來稱呼的,翻概率論的書籍我們知道,連續隨機變量在某一點處的概率其實是0的, p(θ) = 3.99更確切的解釋應該是θ = 0.6處的概率密度為3.99。

所以下面才是連續變量形式的貝葉斯公式模型的正確形式:

$π(θ|x) = \frac{p(x|θ)π(θ)}{\int{p(x|θ)π(θ)d(θ)}}$

 

 --------------------------------------------------------------------------------------------------------------------------------------------------------------------------

                                                                                                                                                                                路漫漫其修遠兮,吾將上下而求索


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM