今天開始學Pattern Recognition and Machine Learning (PRML)，章節1.2，Probability Theory （下）

本文轉載自查看原文 2013-05-09 18:00 2638 PRML/ All Articles/ 機器學習 Machine Learning/ Machine Learning

今天把1.2寫完，這一節講了很多重要的基礎內容。

1.2.3 貝葉斯概率

這一節的上半部分，我們結合一個盒子-水果抽取的問題，從隨機可重復事件頻率的角度理解了概率，這是經典的一種通過頻率來理解概率的角度，接下來我們用貝葉斯角度來理解概率，重點關注不確定性。

有些事件稱之為不確定事件，比如月亮是不是曾經圍繞太陽旋轉，北極的冰是否會在一百年后消失，這些事件都沒辦法通過重復事件來確定概率。但是我們可以通過其他一些手段來得到一些結果，比如我們可以通過觀察每年冰層的消融比率來確定是否有可能消失。當然，人們會通過這些結果來指導未來的活動（decision），比如減少溫室氣體的排放，通過這些行為，我們需要重新評估冰層消失的可能。這里引出了從貝葉斯角度看概率。

在模式識別領域，我們需要一種更通用的關於概率的表達。1.1節中提到多項式擬合問題，我們當然可以很自然的用訓練集的頻率來代表隨機變量tn(target value)的概率，但是對於估計正確參數w來說，我們更應該用不確定性來理解，從貝葉斯角度來解釋概率論中的不確定性，用於模型參數估計以及模型的選擇。

假設在觀察數據之前，我們有一個關於w的先驗p(w)，那么根據w我們觀察到數據集D：可以用條件概率來表示p(D|w)，貝葉斯定理可以表達為：

根據上式，我們可以根據給定的觀察數據D，來估計w的不確定性，即w的后驗概率p(w|D)。其中的條件概率p(D|w)可以表示成關於w的一個function，稱之為似然方程（likelihood function）。可以理解為在給定w的情況下，觀察到當前D的可能性。注意：似然並不是關於w的概率密度函數。

P(D)是不變的，可以理解為一個歸一化常數，因此，我們可以得到正比關系：

后驗是關於w的概率密度函數，因此它關於w的積分為1。另外，P(D)可以理解為全概率公式，

一種廣泛使用的統計估計方法是最大似然估計，通過最大化似然方程p(D|w)來得到w。意思是說找到一個w，使得觀察到當前D的概率最大化。很多情況下，我們用-ln（p(D|w)）來求解最小值，主要是為了方便，並且ln是單調的。

前面提到的貝葉斯方法（1.44），一個很重要的好處是非常自然地引入了先驗p(w)，使得我們的估計不會太極端。比如我們對投硬幣問題觀察到每一次訓練數據都是正面，那么最大似然估計得到正面的概率將是1。通過先驗的調整我們可以避免這種極端情況。

當然，貝葉斯理論也有它的缺點：有的時候設計者為了計算的方便而選擇某個形式的先驗，卻不是因為相信數據符合這樣的先驗。如果先驗很爛，那么貝葉斯模型的結果往往會很爛。而直接的統計估計方法（如最大似然）可以避免這些問題，並且可以利用例如cross-validation （本章后面有介紹）這樣的方法來調參。

1.2.4 高斯分布

高斯分布（正態分布）大概是最重要的關於連續型隨機變量的一種概率分布了。關於一個單一的實變量x來說，高斯分布定義為

其中，叫做均值mean，叫做方差variance。高斯分布是由這兩個參數決定的。另外叫做precision。圖1.13繪制了一個典型的高斯分布。

通過下面兩個性質：

我們可以知道高斯分布是一個概率密度函數。

通過期望和方差的定義，我們可以求得

這也是叫做均值mean，叫做方差variance的由來。

定義在一個D維度的連續型隨機變量（一個向量）x的高斯分布是：

其中均值是D維的，協方差是D*D維的。

假設每一個數據點xi都是獨立同分布的，那么基於給定的均值、方差，生成一個數據集x的概率是

也就是似然方程的形式。我們通過最大化似然方程來找到使得生成這樣數據集的概率最大的參數。這里有一點繞，理論上我們應該去給定數據集尋找參數的最大概率，這樣更自然一些；不過這個目標和最大似然是有聯系的，后面會涉及到。基於(1.53)式我們也更容易理解為什么常常需要對似然方程取ln計算，因為取對數之后使得連乘變成了連加，方便計算，同時保證了計算機的精度是有效的。取對數后我們可以得到似然方程：

最大化該式（分別對）可以得到均值和方差的最大似然估計：

可以看到，結果分別是樣本均值和樣本方差。這樣的方法和結果看起來都很簡單也有道理，那是不是說以后我們只要計算樣本均值和樣本方差就行了呢？進一步探究最大似然的結果我們可以發現它有一些不足之處——本質上，它低估了真實方差。我們來求上述解的期望，通過帶入期望的定義，不難得到：

可以看到，樣本方差的期望不等於真實方差（假設的，未知的），也就是說最大似然的方差估計是有偏估計。這是一種稱之為bias的現象（之一），在很多模型中，正是因為最大似然這種bias造成了模型的over-fitting（過擬合）。

1.2.5 曲線擬合問題再思考

讓我們繼續回到前一節講的曲線擬合問題中，來逐步揭開更加概率角度的模型理解，用完全貝葉斯角度去做。

我們用不確定性來表達需要求的目標值t（target value）——用概率分布來表達。假設給定一個數據點x，它的目標值t服從一個高斯分布（均值為y(x,w)，方差為），那么：

由下圖1.16可以看到，紅線表示曲線擬合的結果，在每一個點x0上，得到目標值t是在一個范圍內變化的。

對（1.60）取對數，得到：

當我們對w求極值的時候，可以看其他參數都是已知的常數，因此最小化（1.62）就等價於最小化這一部分。而這一部分就恰恰是前面我們提到過的error function，稱為sum-of-squares。有了w的似然估計以后，我們類似的可以求出precision 的估計值：

好了，當我們有了之后，現在我們可以預測t的概率分布了：

這和我們之前用error function計算最優w再直接得到y作為t的預測不同，現在t是符合一個分布的。

當然，上述結果仍然略顯簡單，更進一步貝葉斯的方法是引入w的先驗。讓我們假設w符合下面這樣的高斯分布：

其中控制了參數w的分布，像這樣的參數稱之為超參數。通過貝葉斯定理，可以表達出w的后驗概率：

這樣我們可以計算w最有可能的取值，在給定數據集（訓練集x,t）的情況下。這種方法稱為maximum posterior (MAP) 。

用和之前類似的方法，對（1.66）取-ln()，等價於最小化：

這和之前提到的帶正則項的error function（regularized sum-of-squares）是一樣的。可見，引入了先驗在這個例子下面起到了調節過擬合的作用。

1.2.6 貝葉斯曲線擬合

繼續思考前面的例子，雖然我們引入了w的先驗，但是我們本質上仍然在做w的點估計，即我們得到了一個我們認為最優的w，然后再得到t的估計。事實上，真正貝葉斯的方法因該是對所有w做積分，叫做marginalization，這才是貝葉斯理論的核心所在。應該是這樣做的：在給定訓練數據集x，t下，我們對所有w的取值求積分

，其中一項是用式子（1.60）來給出的，一項是由前面（1.66）給出的（需要歸一化）。通過計算我們可以得到（1.68）左邊關於t的分布表達：

上面為了書寫清楚，把參數和隱藏了，當做是已知的，后面第三章會講到怎么求上面的結果，在這里就不具體講了，有個大概的概念即可。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 今天開始學Pattern Recognition and Machine Learning (PRML)書，章節1.2，Probability Theory 概率論（上）今天開始學Pattern Recognition and Machine Learning (PRML)，章節1.1，介紹與多項式曲線擬合(Polynomial Curve Fitting) 學習筆記-----《Pattern Recognition and Machine Learning》Christopher M. Bishop 從今天開始，培養自己的學編程的興趣模式識別與機器學習 (Pattern Recognization and Maching Learning)(PRML) [Machine Learning] Active Learning 課程三(Structuring Machine Learning Projects)，第一周（ML strategy（1）） —— 1.Machine learning Flight simulator:Bird recognition in the city of Peacetopia (case study) Codeforces 1248C Ivan the Fool and the Probability Theory(推公式) CF C.Ivan the Fool and the Probability Theory【思維·構造】 Extreme Learning Machine