1. 貝葉斯之參數估計
1.1. 背景知識
概率與統計
- 概率:在給定數據生成過程下觀測研究數據的性質;模型和參數->數據;推理
- 統計:根據觀測的數據,反向思考其數據的生成過程;數據->模型和參數:歸納
- 關系:概率論是統計學的數學基礎,統計是對概率論的應用
描述統計和推斷統計
- 描述統計:描繪或總結觀察量基本情況(均值,方差,中位數,四分位數等)
- 推斷統計:根據得到的部分數據推測總體數據的情況(參數統計,非參數統計,估計量,真實分布,經驗分布)
“似然”與“概率”:
- 在英語中:似然(likelihood)和概率(probability)都指事件發生的可能性
- 在統計中:概率是已知參數,對結果可能性的預測,似然是已知結果,對參數是某一個值的可能性預測。
- 對於函數\(P(x|\theta)\)
- 如果\(\theta\)已知且保持不變,\(x\)是變量,則函數\(P(x|\theta)\)稱為概率函數,表示不同\(x\)出現的概率
- 如果\(x\)已知且保持不變,\(\theta\)是變量,則函數\(P(x|\theta)\)稱為似然函數,表示不同\(\theta\)下,\(x\)出現的概率,也記做\(L(\theta|x)\)或\(L(X;\theta)\)或\(f(x;\theta)\)
頻率學派與貝葉斯學派
- 頻率學派與貝葉斯學派只是解決問題的角度不同
- 頻率學派從「自然」角度出發。認為模型的參數是客觀的固定的, 樣本信息來自總體,僅通過研究樣本信息可以對總體信息做出合理的推斷和估計,並且樣本越多,就越准確
- 貝葉斯學派從「觀察者」角度出發。認為未知參數可以先從主觀角度來考慮,任何一個未知量都可以看作是隨機的,應該用一個概率分布去描述未知參數
- 頻率學派的代表是最大似然估計;貝葉斯學派的代表是最大后驗概率估計。
- 頻率派概率以頻率為主體,貝葉斯概率以置信度為主體
貝葉斯公式:\(P(A|B)=\frac{P(B|A)}{P(B)}*P(A)\)
- \(P(A|B)\)是已知B發生后A的條件概率,也由於得自B的取值而被稱作A的后驗概率,表示事件B發生后,事件A發生的置信度
- \(P(A)\)是A的先驗概率或邊緣概率,表示事件A發生的置信度
- \(P(B|A)\)是已知A發生后B的條件概率,也由於得自A的取值而被稱作B的后驗概率,也被稱作似然函數。
- \(P(B)\)是B的先驗概率或邊緣概率,稱為標准化常量
- \(\frac{P(B|A)}{P(B)}\)稱為標准似然比,表示事件B為事件A發生提供的支持程度
1.2. 最大似然估計(MLE)
最大似然估計將參數\(\theta\)看做固定值,只是其值未知。思想是使得觀測數據(樣本)發生概率\(P(X|\theta)\)最大的\(\theta\)就是最好的\(\theta\)。
最大似然估計的求解步驟:
- 寫出單個樣本的似然
- 寫出總體的似然函數\(L(X;\theta)\)
- 轉成對數似然函數
- 求對數似然函數的最大值(求導,解似然方程)
1.3. 最大后驗概率估計(MAP)
最大似然函數認為\(\theta\)具有某種概率分布,稱為先驗分布,求解時除了要考慮似然函數\(P(X|\theta)\)之外,還要考慮\(\theta\)的先驗分布\(P(\theta)\),因此其認為使\(P(X|\theta)P(\theta)\)取最大值的\(\theta\)就是最好的\(\theta\)
- 由於X的先驗分布\(P(X)\)是固定的,所以最大化函數可以變為\(\frac{P(X|\theta)P(\theta)}{P(X)}=P(\theta|X)\)
最大后驗概率估計的求解步驟:
- 確定參數的先驗分布\(P(\theta)\)以及似然函數\(L(X;\theta)\)
- 確定參數的后驗分布函數\(L(X;\theta)P(\theta)\)
- 將后驗分布函數轉換為對數函數
- 求對數函數的最大值(求導,解方程)
1.4. 貝葉斯估計
貝葉斯估計是最大后驗估計的進一步擴展,此時不直接估計參數\(\theta\)的值,而是允許參數服從一定概率分布。極大似然估計和極大后驗概率估計,都求出了參數\(\theta\)的值,而貝葉斯估計則不是,貝葉斯估計擴展了極大后驗概率估計MAP(一個是等於,一個是約等於)方法,它根據參數的先驗分布\(P(\theta)\)和一系列觀察X(先驗分布\(P(X)\)是不可忽略),求出參數的后驗分布\(P(\theta|X)\),然后求出的期望值,作為其最終值。另外還定義了參數的一個方差量,來評估參數估計的准確程度或者置信度。
貝葉斯估計的求解步驟:
- 確定參數的似然函數\(P(X|\theta)\)
- 確定參數的先驗分布\(P(\theta)\),應是后驗分布的共軛先驗
- 根據貝葉斯公式求解參數的后驗分布
- \(P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int P(X|\theta)P(\theta)d\theta}\)
- 求出貝葉斯估計值
- \(\hat{\theta}=\int \theta p(\theta|X)d\theta\)
1.5. 什么時候 MAP 估計與最大似然估計相等
當先驗分布均勻之時(無信息先驗,此時貝葉斯方法等同於頻率方法),MAP估計與MLE相等。直觀講,它表征了最有可能值的任何先驗知識的匱乏。在這一情況中,所有權重分配到似然函數,因此當我們把先驗與似然相乘,由此得到的后驗極其類似於似然。因此,最大似然方法可被看作一種特殊的MAP
隨數據的增加,先驗的作用越來越弱,數據的作用越來越強,參數的分布會向着最大似然估計靠攏。而且可以證明,最大后驗估計的結果是先驗和最大似然估計的凸組合。