1. 貝葉斯之參數估計

1. 貝葉斯之參數估計

1.1. 背景知識

概率與統計

概率：在給定數據生成過程下觀測研究數據的性質；模型和參數->數據；推理
統計：根據觀測的數據，反向思考其數據的生成過程；數據->模型和參數：歸納
關系：概率論是統計學的數學基礎，統計是對概率論的應用

描述統計和推斷統計

描述統計：描繪或總結觀察量基本情況（均值，方差，中位數，四分位數等）
推斷統計：根據得到的部分數據推測總體數據的情況（參數統計，非參數統計，估計量，真實分布，經驗分布）

“似然”與“概率”：

在英語中：似然（likelihood）和概率（probability）都指事件發生的可能性
在統計中：概率是已知參數，對結果可能性的預測，似然是已知結果，對參數是某一個值的可能性預測。
對於函數\(P(x|\theta)\)
- 如果\(\theta\)已知且保持不變，\(x\)是變量，則函數\(P(x|\theta)\)稱為概率函數，表示不同\(x\)出現的概率
- 如果\(x\)已知且保持不變，\(\theta\)是變量，則函數\(P(x|\theta)\)稱為似然函數，表示不同\(\theta\)下，\(x\)出現的概率，也記做\(L(\theta|x)\)或\(L(X;\theta)\)或\(f(x;\theta)\)

頻率學派與貝葉斯學派

頻率學派與貝葉斯學派只是解決問題的角度不同
頻率學派從「自然」角度出發。認為模型的參數是客觀的固定的, 樣本信息來自總體，僅通過研究樣本信息可以對總體信息做出合理的推斷和估計，並且樣本越多，就越准確
貝葉斯學派從「觀察者」角度出發。認為未知參數可以先從主觀角度來考慮，任何一個未知量都可以看作是隨機的，應該用一個概率分布去描述未知參數
- 頻率學派的代表是最大似然估計；貝葉斯學派的代表是最大后驗概率估計。
- 頻率派概率以頻率為主體，貝葉斯概率以置信度為主體

貝葉斯公式：\(P(A|B)=\frac{P(B|A)}{P(B)}*P(A)\)

\(P(A|B)\)是已知B發生后A的條件概率，也由於得自B的取值而被稱作A的后驗概率，表示事件B發生后，事件A發生的置信度
\(P(A)\)是A的先驗概率或邊緣概率，表示事件A發生的置信度
\(P(B|A)\)是已知A發生后B的條件概率，也由於得自A的取值而被稱作B的后驗概率，也被稱作似然函數。
\(P(B)\)是B的先驗概率或邊緣概率，稱為標准化常量
\(\frac{P(B|A)}{P(B)}\)稱為標准似然比，表示事件B為事件A發生提供的支持程度

1.2. 最大似然估計（MLE）

最大似然估計將參數\(\theta\)看做固定值，只是其值未知。思想是使得觀測數據（樣本）發生概率\(P(X|\theta)\)最大的\(\theta\)就是最好的\(\theta\)。

最大似然估計的求解步驟：

寫出單個樣本的似然
寫出總體的似然函數\(L(X;\theta)\)
轉成對數似然函數
求對數似然函數的最大值（求導，解似然方程）

1.3. 最大后驗概率估計（MAP）

最大似然函數認為\(\theta\)具有某種概率分布，稱為先驗分布，求解時除了要考慮似然函數\(P(X|\theta)\)之外，還要考慮\(\theta\)的先驗分布\(P(\theta)\)，因此其認為使\(P(X|\theta)P(\theta)\)取最大值的\(\theta\)就是最好的\(\theta\)

由於X的先驗分布\(P(X)\)是固定的,所以最大化函數可以變為\(\frac{P(X|\theta)P(\theta)}{P(X)}=P(\theta|X)\)

最大后驗概率估計的求解步驟：

確定參數的先驗分布\(P(\theta)\)以及似然函數\(L(X;\theta)\)
確定參數的后驗分布函數\(L(X;\theta)P(\theta)\)
將后驗分布函數轉換為對數函數
求對數函數的最大值（求導，解方程）

1.4. 貝葉斯估計

貝葉斯估計是最大后驗估計的進一步擴展，此時不直接估計參數\(\theta\)的值，而是允許參數服從一定概率分布。極大似然估計和極大后驗概率估計，都求出了參數\(\theta\)的值，而貝葉斯估計則不是，貝葉斯估計擴展了極大后驗概率估計MAP（一個是等於，一個是約等於）方法，它根據參數的先驗分布\(P(\theta)\)和一系列觀察X（先驗分布\(P(X)\)是不可忽略），求出參數的后驗分布\(P(\theta|X)\)，然后求出的期望值，作為其最終值。另外還定義了參數的一個方差量，來評估參數估計的准確程度或者置信度。
貝葉斯估計的求解步驟：

確定參數的似然函數\(P(X|\theta)\)
確定參數的先驗分布\(P(\theta)\)，應是后驗分布的共軛先驗
根據貝葉斯公式求解參數的后驗分布
- \(P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int P(X|\theta)P(\theta)d\theta}\)
求出貝葉斯估計值
- \(\hat{\theta}=\int \theta p(\theta|X)d\theta\)

1.5. 什么時候 MAP 估計與最大似然估計相等

當先驗分布均勻之時(無信息先驗,此時貝葉斯方法等同於頻率方法)，MAP估計與MLE相等。直觀講，它表征了最有可能值的任何先驗知識的匱乏。在這一情況中，所有權重分配到似然函數，因此當我們把先驗與似然相乘，由此得到的后驗極其類似於似然。因此，最大似然方法可被看作一種特殊的MAP

隨數據的增加，先驗的作用越來越弱，數據的作用越來越強，參數的分布會向着最大似然估計靠攏。而且可以證明，最大后驗估計的結果是先驗和最大似然估計的凸組合。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 貝葉斯參數估計 CTR預估中的貝葉斯平滑方法（二）參數估計和代碼實現參數估計（2）：極大似然，最大后驗，貝葉斯推斷以及最大熵 R語言代寫Copula的貝葉斯非參數估計貝葉斯估計貝葉斯估計淺析簡述貝葉斯估計基於高斯過程的貝葉斯優化(三)GP超參數的估計極大似然估計與貝葉斯估計朴素貝葉斯和貝葉斯估計