極大似然估計與貝葉斯估計


       通過貝葉斯等方式實現分類器時,需要首先得到先驗概率以及類條件概率密度。但在實際的應用中,先驗概率與類條件概率密度並不能直接獲得,它們都需要通過估計的方式來求得一個近似解。若先驗概率的分布形式已知(或可以假設為某個分布),但分布的參數未知,則可以通過極大似然或者貝葉斯來獲得對於參數的估計。

       極大似然估計的主要思想是:把待估計的參數看為確定的量,只是取值未知,其最佳估計是使得產生已知樣本的概率值最大時的參數取值。貝葉斯估計的主要思想是:把待估計的參數看成是符合某種先驗概率分布的隨機變量,對樣本進行觀測的過程就是把先驗概率轉化為后驗概率密度的過程,這樣通過現有的樣本信息修正對於參數的估計值。

       接下來通過一個實例來闡述極大似然估計和貝葉斯估計。設樣本為\(T=\{(x_1,y_1),(x_2,y_2),..., (x_N,y_N)\}\),其中\(x_i \in R\)\(y_i \in \{+1, -1\}\)\(i=1,2,...,N\)。使用貝葉斯作為分類器,則需要求如下后驗概率:

\[P(y^{(k)}|x)= \frac {p(x|y^{(k)})P(y^{(k)})}{\sum_{j} p(x|y^{(j)})P(y^{(j)})} \quad \]

注:\(P(y^{(k)})\)表示\(P(y=y^{(k)})\)的概率,\(y^{(k)}\)表示具體分類,可以為\(+1\)\(-1\)\(p(x)\)表示\(x\)點的概率密度

要求解上式的后驗概率\(P(y^{(k)}|x)\)則需要先求類條件概率密度\(p(x|y^{(k)})\)。若預先知道\(p(x|y^{(k)}) \sim N(\mu ,\sigma^{2}_{0} )\)(或假設其服從某個分布,參數未知),並且僅有參數\(\mu\)未知(兩個參數都未知的情況類似)。

       若使用 極大似然估計 ,設\(\mu\)為一個確定的量,它的最佳估計值是使得出現樣本情況時的最大概率時的取值。最大概率用一個如下的似然函數來表示:

\[L(\mu) = \prod _{i=1} ^{n} p(x_i|y^{(k)})\quad \]

其中上式中\(n\)表示標簽為\(y^{(k)}\)的樣本數,\(x_i\)表示標簽為\(y^{(k)}\)時的樣本。我們要求上式最大時參數\(\mu\)的取值,由於上式為多項相乘,可以請先取對數,然后求極值。

\[ln L(\mu) = \sum _{i=1} ^{n} ln p(x_i|y^{(k)})= \sum _{i=1} ^{n}[-ln \sqrt{2\pi}\sigma_{0}-\frac{(x_i - \mu)^{2}}{2\sigma^{2}_{0}}] \]

由於上式為凸函數,可以通過求導,並令導數為0得到極值點。因此有如下等式:

\[\frac{\partial lnL(\mu)}{\partial \mu}=- \frac{1}{\sigma^{2}_{0}} \sum_{i=1}^{n}(x_i - \mu) = \frac{1}{\sigma^{2}_{0}}(n\mu-\sum_{i=1}^{n}x_i) = \frac{1}{\sigma^{2}_{0}}(n\mu-n\overline{x}^{(k)})=0 \]

最終得到\(\mu\)的最佳估計值為\(\hat \mu = \overline{x}^{(k)}\),由此可以得到類條件概率密度函數\(p(x|y^{(k)})\) $ \sim $ $ N( \overline{x}^{(k)},\sigma^{2}_{0} )$。

       若使用 貝葉斯估計 ,設\(\mu\)為一個隨機變量,則\(p(x|\mu)\) \(\sim\) \(N(\mu,\sigma_{0}^{2})\),它的概率密度函數已知(或假設其服從某個已知分布):\(p(\mu)\) \(\sim\) \(N(\mu _{1}, \sigma _{1} ^{2})\),其中\(\mu _{1}\)與$ \sigma _{1}^{2}$為已知量。。由貝葉斯公式可以由如下等式:

\[p(\mu|(x_1,x_2,...,x_n))= \frac{p((x_1,x_2,...,x_n)|\mu)p(\mu)}{\int p((x_1,x_2,...,x_n)|\mu)p(\mu)du} \]

其中上式中\(x_1,x_2,...,x_n\)表示標簽為\(y^{(k)}\)時的樣本,上式的分母為一個不依賴於參數的值,可將其計為\(\lambda\),由於樣本是獨立同分布,則可將概率密度函數帶入得到如下等式:

\[\begin{align} p(\mu|(x_1,x_2,...,x_n)) &= \lambda p((x_1,x_2,...,x_n)|\mu)p(\mu) \\ &= \lambda \prod _{i=1} ^{n}p(x_{i}|\mu)p(\mu) \\ &=\lambda' exp(-\frac{1}{2}((\frac{n}{\sigma_{0} ^{2}} + \frac{1}{\sigma_{1} ^{2}}) \mu ^{2}- 2(\frac{1}{\sigma_{0} ^{2}} \sum _{i=1} ^{n} x_{i} + \frac{\mu_{1}}{\sigma_{1}^{2}})\mu )) \end{align} \]

由上式可知\(p(\mu|(x_1,x_2,...,x_n))\) 服從正態分布,設\(p(\mu|(x_1,x_2,...,x_n))\) \(\sim\) \(N(\mu_{k} , \sigma_{k}^{2})\),則:

\[\begin{align} p(\mu|(x_1,x_2,...,x_n)) &= \frac{1}{\sqrt{(2 \pi)} \sigma_{k}} exp (-\frac{(\mu - \mu_{k})^{2}}{2 \sigma_{k} ^{2}}) \\ &= \lambda' exp(-\frac{1}{2} (\frac{1}{\sigma_{k} ^{2}}\mu^{2} - 2\frac{\mu_{k}}{\sigma_{k} ^{2}}\mu)) \end{align} \]

以上兩個等式對應項相等可得:

\[\mu_{k} = (\frac{n \sigma_{1}^{2}}{n \sigma_{1}^{2} + \sigma_{0}^{2}}) \overline{x}^{(k)} + \frac{\sigma_{0}^{2}}{n\sigma_{1}^{2} + \sigma_{0}^{2}}\mu_{1} \]

\[\sigma_{k}^{2} = \frac{\sigma_{1}^{2}\sigma_{0}^{2}}{n\sigma_{1}^{2} + \sigma_{0}^{2}} \]

接下來我們可以通過如下等式求得類條件概率密度:

\[p(x|y^{(k)}) = \int p(x|\mu)p(\mu|(x_1,x_2,...,x_n))d\mu \]


1.參考文檔:

       [1]. 模式分類              Richard O.Duda 等著       李宏東 等譯


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM