貝葉斯的三個參數估計


1. 貝葉斯之參數估計

1.1. 背景知識

概率與統計

  • 概率:在給定數據生成過程下觀測研究數據的性質;模型和參數->數據;推理
  • 統計:根據觀測的數據,反向思考其數據的生成過程;數據->模型和參數:歸納
  • 關系:概率論是統計學的數學基礎,統計是對概率論的應用

描述統計和推斷統計

  • 描述統計:描繪或總結觀察量基本情況(均值,方差,中位數,四分位數等)
  • 推斷統計:根據得到的部分數據推測總體數據的情況(參數統計,非參數統計,估計量,真實分布,經驗分布)

“似然”與“概率”:

  • 在英語中:似然(likelihood)和概率(probability)都指事件發生的可能性
  • 在統計中:概率是已知參數,對結果可能性的預測,似然是已知結果,對參數是某一個值的可能性預測。
  • 對於函數\(P(x|\theta)\)
    • 如果\(\theta\)已知且保持不變,\(x\)是變量,則函數\(P(x|\theta)\)稱為概率函數,表示不同\(x\)出現的概率
    • 如果\(x\)已知且保持不變,\(\theta\)是變量,則函數\(P(x|\theta)\)稱為似然函數,表示不同\(\theta\)下,\(x\)出現的概率,也記做\(L(\theta|x)\)\(L(X;\theta)\)\(f(x;\theta)\)

頻率學派與貝葉斯學派

  • 頻率學派與貝葉斯學派只是解決問題的角度不同
  • 頻率學派從「自然」角度出發。認為模型的參數是客觀的固定的, 樣本信息來自總體,僅通過研究樣本信息可以對總體信息做出合理的推斷和估計,並且樣本越多,就越准確
  • 貝葉斯學派從「觀察者」角度出發。認為未知參數可以先從主觀角度來考慮,任何一個未知量都可以看作是隨機的,應該用一個概率分布去描述未知參數
    • 頻率學派的代表是最大似然估計;貝葉斯學派的代表是最大后驗概率估計。
    • 頻率派概率以頻率為主體,貝葉斯概率以置信度為主體

貝葉斯公式:\(P(A|B)=\frac{P(B|A)}{P(B)}*P(A)\)

  • \(P(A|B)\)是已知B發生后A的條件概率,也由於得自B的取值而被稱作A的后驗概率,表示事件B發生后,事件A發生的置信度
  • \(P(A)\)是A的先驗概率或邊緣概率,表示事件A發生的置信度
  • \(P(B|A)\)是已知A發生后B的條件概率,也由於得自A的取值而被稱作B的后驗概率,也被稱作似然函數。
  • \(P(B)\)是B的先驗概率或邊緣概率,稱為標准化常量
  • \(\frac{P(B|A)}{P(B)}\)稱為標准似然比,表示事件B為事件A發生提供的支持程度

1.2. 最大似然估計(MLE)

最大似然估計將參數\(\theta\)看做固定值,只是其值未知。思想是使得觀測數據(樣本)發生概率\(P(X|\theta)\)最大的\(\theta\)就是最好的\(\theta\)

最大似然估計的求解步驟:

  1. 寫出單個樣本的似然
  2. 寫出總體的似然函數\(L(X;\theta)\)
  3. 轉成對數似然函數
  4. 求對數似然函數的最大值(求導,解似然方程)

1.3. 最大后驗概率估計(MAP)

最大似然函數認為\(\theta\)具有某種概率分布,稱為先驗分布,求解時除了要考慮似然函數\(P(X|\theta)\)之外,還要考慮\(\theta\)的先驗分布\(P(\theta)\),因此其認為使\(P(X|\theta)P(\theta)\)取最大值的\(\theta\)就是最好的\(\theta\)

  • 由於X的先驗分布\(P(X)\)是固定的,所以最大化函數可以變為\(\frac{P(X|\theta)P(\theta)}{P(X)}=P(\theta|X)\)

最大后驗概率估計的求解步驟:

  1. 確定參數的先驗分布\(P(\theta)\)以及似然函數\(L(X;\theta)\)
  2. 確定參數的后驗分布函數\(L(X;\theta)P(\theta)\)
  3. 將后驗分布函數轉換為對數函數
  4. 求對數函數的最大值(求導,解方程)

1.4. 貝葉斯估計

貝葉斯估計是最大后驗估計的進一步擴展,此時不直接估計參數\(\theta\)的值,而是允許參數服從一定概率分布。極大似然估計和極大后驗概率估計,都求出了參數\(\theta\)的值,而貝葉斯估計則不是,貝葉斯估計擴展了極大后驗概率估計MAP(一個是等於,一個是約等於)方法,它根據參數的先驗分布\(P(\theta)\)和一系列觀察X(先驗分布\(P(X)\)是不可忽略),求出參數的后驗分布\(P(\theta|X)\),然后求出的期望值,作為其最終值。另外還定義了參數的一個方差量,來評估參數估計的准確程度或者置信度。
貝葉斯估計的求解步驟:

  1. 確定參數的似然函數\(P(X|\theta)\)
  2. 確定參數的先驗分布\(P(\theta)\),應是后驗分布的共軛先驗
  3. 根據貝葉斯公式求解參數的后驗分布
    • \(P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int P(X|\theta)P(\theta)d\theta}\)
  4. 求出貝葉斯估計值
    • \(\hat{\theta}=\int \theta p(\theta|X)d\theta\)

1.5. 什么時候 MAP 估計與最大似然估計相等

當先驗分布均勻之時(無信息先驗,此時貝葉斯方法等同於頻率方法),MAP估計與MLE相等。直觀講,它表征了最有可能值的任何先驗知識的匱乏。在這一情況中,所有權重分配到似然函數,因此當我們把先驗與似然相乘,由此得到的后驗極其類似於似然。因此,最大似然方法可被看作一種特殊的MAP

隨數據的增加,先驗的作用越來越弱,數據的作用越來越強,參數的分布會向着最大似然估計靠攏。而且可以證明,最大后驗估計的結果是先驗和最大似然估計的凸組合。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM