我們進行參數估計的方法一般主要有最大似然估計和貝葉斯估計。這里提一下兩種估計的門派來加深理解:
-
最大似然估計屬於統計學里的頻率學派。頻率派從事件本身出發,認定事件本身是隨機的。事件在重復試驗中發生的頻率趨於極限時,這個極限就是該事件的概率。事件的概率一般設為隨機變量,當變量為離散變量時,變量的分布用概率質量函數來表征;變量連續時,則用概率密度函數去表征。
-
貝葉斯估計屬於統計學里的貝葉斯學派。貝葉斯學派從觀察者角度出發,構造一個框架,使用人的已有知識來推理未知的事物。也就是我們常說的利用先驗知識不斷更新后驗知識。
大家有興趣的深入了解兩個學派不同之處的可以看一下貝葉斯學派與頻率學派有何不同
下面來介紹機器學習中的兩種估計方法及它們的不同之處。
一、最大似然估計
首先說一下點估計,點估計是為一些感興趣的量提供“最優”預測的,而預測就是通過求解一個訓練數據集為輸入的函數從而得到我們想要的估計值。至於這個函數怎么選取,就需要一個准則來判斷了。最大似然估計往往可以提供這個准則來構建估計的函數。
1、內容
考慮一組具有 m 個樣本的數據集 \(X=\lbrace x^{(1)},\ldots ,x^{(m)}\rbrace \) ,獨立地由未知的真實數據生成分布 \(p_{data}(x)\) 生成。
令 \(p_{model}(x;\theta)\) 是一族由參數 \(\theta \) 確定在相同空間上的概率分布(簡稱模型族)。我們的目標就是找到最大的概率分布及其對應的參數 \(\theta \) 。最大似然估計定義如下:
因為多個概率的乘積可能會引起數值計算的下溢,所以我們引入似然對數將乘積化為便於計算的求和形式:
我們再除以樣本數 m 便可以得到和訓練數據經驗分布 \( \widehat {p} _{data} \) 相關的期望來作為准則:
2、解釋
為了更好地解釋最大似然,我們可以將最大似然看成最小化訓練集上的經驗分布 \( \widehat {p} _{data} \) 和模型分布之間的差異,差異可以用 KL 散度(相對熵)來表征,其表達式如下:
很明顯,左邊一項僅和數據生成過程有關,與模型無關。所以我們要減小經驗分布和模型分布之間的差異,只要最小化右邊一項:
這與上述最大化准則等價。
3、性質
最大似然估計通常是機器學習中的首選估計,主要是因為它的兩個性質:
- 一致性:當樣本數目 \( m \rightarrow \infty \) 時,參數的最大似然估計就會收斂到參數的真實值。
- 統計效率高:統計效率值降低一定的泛化誤差需要樣本數目,最大似然估計能用很少的樣本就達到一定低的泛化誤差。
但是要注意的是,上述的性質基於兩個條件:
- 數據的真實分布 \( p _{data} \) 必須包含在模型族中。換句話說,我們得選對學習算法,這樣算法中的模型才能描述給定的數據的經驗分布。
- 真實分布 \( p _{data} \) 要剛剛好對應一個 \( \theta \) 值。不然最大似然估計的結果將無法應用於模型中。
二、貝葉斯估計
貝葉斯估計不同於最大似然估計只基於估計單一值 \( \theta \) ,它考慮了所有可能的 \( \theta \) 。
在觀察到數據前,\( \theta \) 的已知知識需要被表示成先驗概率分布,即 \( p( \theta) \) (簡稱“先驗”)。一般,先驗會選擇一個相當寬泛的分布(高熵),來反映觀測到任何數據前參數 \( \theta \) 的高度不確定性。
假設有一組數據樣本 \(X=\lbrace x^{(1)},\ldots ,x^{(m)}\rbrace \) 。通過貝葉斯規則結合數據似然 \( p(x^{(1)},\ldots ,x^{(m)} \mid \theta ) \) 和先驗,我們可以得到參數 \( \theta \) 對數據的條件概率(即參數的完整貝葉斯后驗分布):
在觀測到 m 個數據樣本后,我們再預測下一個數據樣本的分布:
由此可以看出貝葉斯估計使用的是 \( \theta \) 的全分布, 每個具有正概率密度的 \( \theta \) 的值都有助於下一個樣本的預測。
當訓練數據有限時,貝葉斯方法通常泛化得更好,但是訓練數據很大時,計算代價會比較大。
三、兩種估計的比較
- 最大似然估計使用 \( \theta \) 的點估計,而貝葉斯估計使用的是 \( \theta \) 的全分布。頻率派估計 \( \theta \) 的不確定性用的是方差,方差評估了重新采樣后估計的可能變化,而貝葉斯派則是通過積分,可以防止過擬合。
- 貝葉斯估計中的先驗分布會影響概率質量密度朝參數空間中的偏好先驗的區域偏移,先驗一般偏好更簡單或更光滑的模型。也就是說我們認為主觀選擇的先驗會影響模型的結果,因此先驗常在貝葉斯方法中被批判。
這里再提一下利用兩種估計方法優點的最大后驗估計(MAP),既使用了先驗,又回到最大似然估計來進行計算,這里就不贅述了。
四、總結
參數估計貫穿整個機器學習,一般我們機器學習有四部分組成:特定的數據集、目標函數(也稱代價函數或損失函數)、優化過程、模型,而其中目標函數的構建離不開參數估計的指導,特別是最大似然估計。