問題:這些估計都是干嘛用的?它們存在的意義的是什么?
有一個受損的骰子,看起來它和正常的骰子一樣,但實際上因為受損導致各個結果出現的概率不再是均勻的 \(\frac{1}{6}\) 了。我們想知道這個受損的骰子各個結果出現的實際概率。准確的實際概率我們可能永遠無法精確的表示出了,但是我們可以通過做大量實驗來盡可能地近似它。我們可以擲很多次骰子,然后統計一下 \(\frac{各個結果出現的次數}{總擲骰子的次數}\) 這個比例作為各個結果的概率,這個概率就作為我們對這個骰子各個結果概率的估計值。
上面其實就是一個 概率分布估計 的例子。現實中很多規律是我們很難預先了解的,但我們可以觀測到在這個規律下產生的數據(樣本),我們希望能夠通過這些已經觀測到的樣本來推測或者估計出這個規律以達到幫助我們掌握規律的目的。
我們可以數學化一下上面的例子。我們可以擲骰子的結果看成是一個隨機變量\(X\)。我們假設觀測的數據 \(\{x_{1}, ..., x_{N}\}\) 是由 \(P(X|\theta)\) 這個分布產生,其中 \(\theta\) 是某個分布的參數,它是一個變量,是我們要估計的量。最大似然估計、最大后驗概率估計以及貝葉斯估計就是幫助我們估計這個參數 \(\theta\) 的方法。
給定一組觀測樣本 \(X=\{x_{1}, ..., x_{N}\}\),最大似然估計、最大后驗概率估計以及貝葉斯估計就是要估計產生這組樣本的分布模型。
做個說明
- \(P(X)\):樣本先驗。比如投硬幣,直覺經驗告訴我們正反面概率應該各為0.5
- \(P(X|\theta)\):參數似然。就是實驗觀測結果,比如通過分別統計實際樣本中正反面出現的頻率發現 正面概率0.7,反面概率0.3(與直覺不同)。
估計方法pipline
所有估計方法的 第一步 就是要先對樣本的聯合概率分布 \(P(x_{1}, ..., x_{N}|\theta)\) 做出假設。比如我們假設 \(P(x_{1}, ..., x_{N}|\theta)=f(\theta, \{x_{1}, ..., x_{N}\})\),其中 \(f\) 是分布函數(比如高斯函數, \(f=Gauss()\) ),\(f\) 的輸入是 \(\theta\) 和 \(\{x_{1}, ..., x_{N}\}\);\(\theta\) 是分布 \(f\) 的參數,它是我們實際要估計的東西。
最大似然估計
- \(\theta\) 是一個定值
- 通過 \(\arg \max _{\Theta} P(x_{1}, ..., x_{N}|\theta)\) 實現求\(\theta\)。
由於\(x_{1}, ..., x_{N}\)獨立同分布。 \(\arg \max _{\theta} P(x_{1}, ..., x_{N}|\theta) = \arg \max _{\theta} P(x_{1}|\theta) \cdot P(x_{2}|\theta) \cdot ... \cdot P(x_{N}|\theta)\)
直觀的解釋就是,找到最合適的 \(\theta\),使得現在觀測到的樣本出現的概率最大。
\(P(x_{N}|\theta)\)是參數的 似然,表示觀測樣本是在 \(\theta\)確定的分布 生成的情況下,看到樣本x_{N}的概率。一般情況下,\(P(x_{N}|\theta)=某個分布函數(x_{N}, \theta)\)
最大后驗概率
- \(\theta\) 是一個隨機變量,它有取值范圍 \(\theta \subset (\theta_{1}, \theta_{2}, \theta_{3},...)\)
- 通過 \(\arg \max _{\theta} P(\theta|x_{1}, ..., x_{N})\) 實現求\(\theta\)。
根據貝葉斯准則\(P\left(B_{i} \mid A\right)=\frac{P\left(B_{i}\right) P\left(A \mid B_{i}\right)}{P(A)}\)
由於\(x_{1}, ..., x_{N}\)獨立同分布。 \(\arg \max _{\theta} P(\theta|x_{1}, ..., x_{N})=\arg \max _{\theta} P(x_{1}, ..., x_{N}|\theta) \cdot P(\theta)=\arg \max _{\theta} P(\theta) \cdot \prod_{n=1}^{N} P(x_{n}|\theta)\)
直觀的解釋現在還不能理解,等以后理解了再補充。
\(P(\theta=\theta_{1}|x_{N})\)是參數的 后驗概率,表示觀測樣本是\(x_{N}\)的情況下,\(\theta=\theta_{1}\)的概率。
貝葉斯估計
- \(\theta\) 是一個隨機變量,它有取值范圍 \(\theta \subset (\theta_{1}, \theta_{2}, \theta_{3},...)\)
- 通過求后驗分布的期望\(\theta = E[P(\theta|x_{1}, ..., x_{N}]\) 實現求\(\theta\)。即求在觀測樣本是\((x_{1}, ..., x_{N})\)的情況下,\(\theta\)取值的期望。
直觀的解釋現在還不能理解,等以后理解了再補充。
一些說明:
- 實際上,隨機變量\(X\)的分布用\(P(X)\)來表示是不嚴謹的,通常,對於離散型隨機變量,我們通常用 分布律函數 來表示隨機變量取值的分布情況;對於連續型隨機變量,我們通常用 概率密度函數 來表示隨機變量取值的分布情況。
- 注意:朴素貝葉斯與貝葉斯估計是不同的概念(李航《統計學習方法》p47最底下注釋)