本文內容主要參考Steven M.Kay的《統計信號處理基礎——估計與檢測理論》,該書中譯本分類為“國外電子與通信教材系列”,應該會有一定局限性。本文是我看過該書后的一點點總結。
1.從最大似然估計看經典估計理論
最大似然估計(Maximum Likelihood Estimation,MLE)是一種很經典的估計方法。顧名思義,就是最大化似然函數的一種估計方法。似然函數(Likelihood function),即(其中$\theta$代表估計量,$X$代表觀察值)。
對於不同的問題,似然函數是不相同的。但是從可以看出,在求解的過程中,$\hat{\theta}$的值是完全取決於$X$的。這就是經典估計理論的特點——完全根據觀測值和建立的模型(被估計量和觀測值之間的關系)對參數進行估計。
對於MLE,有時能夠求得其閉式解,更多時候需要采用迭代的方法求解。最大似然估計思路很簡單,根據模型寫出似然函數,之后求解最大值(當然往往這兩個步驟做起來不是那么容易)。
當然,經典估計就是利用觀測數據以及觀測數據和被估計量之間的關系進行估計,所以完全有不同的思路解決這一估計問題。譬如,當觀察到序列長度為$N$的一組序列,我們可以輕易求出序列的各階矩的估計量
,如果說
,那么就可根據這一關系估計。這就是矩估計的基本思路。
那么問題在於,在如此多的估計量中,如何確定估計量的好壞?
2.無偏和CRLB
觀測量,必然是包含有很多偶然因素的。那么顯然,對不同估計方法采用一局定勝負的方法是不合理的。假設$\theta$是要估計的參數,$\hat{\theta}$是某種估計方法下的估計結果。我們希望$\hat{\theta}=\theta$,雖然這是不切實際的。估計量$\hat{\theta}$的概率分布清楚的描繪了估計方法的性能,然而概率分布函數往往是無法對比的。慶幸的是——我們可以采用$\hat{\theta}$的各階矩來描述其性能。我們希望
第一條性質被稱為“無偏性”,意味着樣本均值等於真值。第二條基本是無法滿足的,這是因為對於一個無偏估計而言,滿足第二條即說明方差為0。那么自然,我們希望方差越小越好。至於更高階的統計量,很多時候是用不上的,而且分析過於復雜,一般不進行討論。
上述討論表明,在經典估計方法中,我們希望估計量滿足以下兩個要求:無偏;方差足夠小。這兩個要求中有一個很模糊的定義——足夠小。多小才夠呢?前人給出了無偏估計方差的下界,應用最廣泛的就是克拉美羅界(CRLB)
CRLB相關內容可以參考WIKI,對於Fisher信息我暫時也不太了解。MLE是漸進無偏且方差漸進趨於CRLB的估計,這種估計量也成為“漸進有效估計”,是准最佳的。然而,如果僅僅從無偏和方差考慮,MLE甚至是一個有偏估計。這並不能說明MLE是不好的,但這兩個評判准則給了我們另一種思路——尋找具有無偏特性且最小方差的估計,這中估計量被稱為MVU(最小方差無偏)。
如果無偏估計方差達到了CRLB,那么他就是MVU估計。問題是,如果達不到呢?有兩條路可以選擇
- 給觀測量和被估計量之間加上人為的限定,使得在這一模型下,不存在達不到CRLB的情況;
- 利用其它手段,證明其他無偏估計的方差會更大,即這個估計的方差最小。
對應這兩種不同的思路,有BLUE(最佳線性無偏估計量,加上了“線性”這一認為假定),以及采用充分統計量的MVU求解方法。
注:最小二乘估計感覺自己總結不清楚,這里不再涉及。
3.更好的估計量?
統計估計理論的經典方法——完全利用觀測信息來確定估計量的取值。那么我們來舉一個例子:
從一階二階統計特性來說,經典方法中有效估計是最佳的。如果被估計量是物體的質量。$\hat{\theta}$是有效估計,我們不能夠推出$\hat{\theta}$。然而,質量是肯定不小於0的,$max \{ \hat{\theta},0 \} $一定是一個更好的估計量(此處的更好拋開了無偏之類的評判標准,指每次估計和真實值之間的差值更小)。
為什么我們能夠輕易找到一個比經典方法中認為的“最佳”更佳的方法?因為我們知道被估計量是質量。這就充分的說明了僅僅根據似然函數之類的觀測量來估計是不夠的。先驗知識有時候能帶來很多用處。既然已經提到了“先驗”,那么必然和貝葉斯定理脫不開關系了。貝葉斯定理的具體闡述可見從貝葉斯定理說開去,本文不再說明。
4.貝葉斯估計方法
經典估計方法中,從沒有利用$\theta$任何先驗知識來看。我們可以將其看作是一個未知的、固定的數。如果考慮貝葉斯定理,那么實際上$\theta$在沒有任何觀測數據下有一個先驗的分布,我們記為$p(\theta)$。在不知道估計如何繼續進行下去的時候,我們可以采用經典方法的思路。無偏應該是做不到了,因為$\theta$已經不能看成是常數,但我們可以仿照經典方法的最小均方誤差MSE,寫出貝葉斯方法下的BMSE。
最顯著的區別是一個是單次積分,而貝葉斯方法中采用了雙重積分。然而內在的區別是,經典方法采用的是似然函數,貝葉斯方法利用的是后驗概率。令BMSE最小的估計方法被稱為MMSE,但我們也能看到,在估計中起決定作用的不是BMSE,而是后驗概率。也就是說,我們可以將換成
或是別的什么東西,得到不同的估計。作用在
上的函數可以是多種多樣的,書中給它起了個好聽的名字叫做“風險函數”(Risk Function,我不太喜歡這個名字,Cost Function可能會更明確的表達其作用)。
取不同的風險函數會得到不同的估計,譬如MMSE和MAP,此處不再討論。總之,貝葉斯估計方法不像傳統方法那樣五花八門,就是最小化風險函數均值
其中$C(e)$是一個滿足離原點越遠,取值越大(不會更小)的函數。(當然我也不確定是不是還有例外)
由於我傾向於將經典方法和貝葉斯方法理解文不同框架下的估計方法,它們的比較是毫無意義的。(或者說比較的結果取決於假設的條件)當時貝葉斯估計的性能衡量准則又該是怎樣的呢?有一個叫做PCRLB(后驗CRLB)的東西貌似是用來做這個的,但是貝葉斯方法遠不如經典方法豐富,選擇一個合適的風險函數求解就可以了,不是嗎?