伯努利分布
伯努利分布,又名0-1分布,是一個離散概率分布。典型的示例是拋一個比較特殊的硬幣,每次拋硬幣只有兩種結果,正面和負面。拋出硬幣正面的概率為 \(p\) ,拋出負面的概率則為 \(1−p\) 。因此,對於隨機變量 \(X\) ,則有:
\[\begin{aligned} f(X=1) =& p\\ f(X=0) =& 1-p \end{aligned} \]
由於隨機變量 \(X\) 只有 0 和 1 兩個值,\(X\) 的概率分布函數可寫為:
\[f(X)=p^x(1-p)^{1-x} \qquad 0<p<1 \tag{1} \]
數學期望
在概率論和統計學中,數學期望(或均值)是試驗中每次可能結果的概率乘以其結果的總和。它反映了隨機變量平均取值的大小。
離散型
離散型隨機變量 \(X\) 的數學期望為一切可能的取值\(x_i\)與對應的概率\(p(x_i)\)的乘積之和,即如果隨機變量的取值為集合
\(\lbrace x_1,x_2,...,x_n\rbrace\) ,每個取值對應的概率為\(\lbrace p(x_1),p(x_2),...,p(x_n)\rbrace\),則有:
\[E(X) = \sum_{i=1}^n x_np(x_n) \tag{2} \]
因此,對於伯努利分布,其數學期望為:
\[E(X)= 1⋅p+0⋅(1−p)=p \]
對於隨機變量\(X\) ,其方差和數學期望的公式滿足:
\[Var(X)=E((X-E(X))^2)=E(x^2)-[E(x)]^2\tag{3} \]
一個隨機變量的方差就是衡量隨機變量和其數學期望之間的偏離程度。
公式推導如下:
\[\begin{aligned} Var(X)=&E((X-E(X))^2)\\ =&E(X^2-2X\cdot E(X)+[E(X)]^2)\\ =&E(X^2)-2\cdot E(X) \cdot E(X) + [E(X)]^2\\ =&E(X^2)-[E(X)]^2 \end{aligned} \]
對於伯努利分布,有 \(E(X2)=E(X)\)。因此,其方差為:
\[Var(X)=p-p^2=p(1-p) \]
最大似然估計
在統計學中,最大似然估計(MLE),也稱為極大似然估計,是用來估計概率模型的參數的方法。其目的就是:利用已知的樣本結果,反推最有可能導致這樣結果的參數值。
由於樣本集中的樣本都是獨立同分布,現以伯努利分布來推導其參數 p 最大似然估計。記已知的樣本集為:
\[D = \lbrace x_1,x_2,...,x_n \rbrace \]
其似然函數為:
\[\begin{split} L(p|x_1,...,x_n) &= f(X|p)\\ &= f(x_1,x_2,...,x_n|p)\\ &= \prod_{i=1}^n f(x_i|p)\\ &= \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i} \end{split} \tag{4} \]
由於有連乘運算,通常對似然函數取對數來計算,即對數似然函數。因此其對數似然函數為:
\[\begin{split} L=&\log \prod_{i=1}^nf(x_i|p)\\ =&\sum_{i=1}^n{\log f(x_i|p)}\\ =&\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]} \end{split} \tag{5} \]
等式\((5)\)其實就是邏輯回歸中使用到的交叉熵了。
\[\begin{split} \hat{p}&=\arg \max_{p}L(p|X)\\ &=\arg \max_p {\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]}}\\ &=\arg \min_p {-\sum_{i=1}^n{[x_i\log p+(1-x_i)\log (1-p)]}} \end{split} \]
因此,最大似然估計其實就是求似然函數的極值點,將對數似然函數對參數 \(p\) 求導:
\[\begin{aligned} \frac{\partial L}{\partial p}&=\sum_{i=1}^n{[\frac{x_i}{p}+\frac{1-x_i}{p-1}]}\\ &=\sum_{i=1}^n{\frac{p-x_i}{p(p-1)}}=0 \end{aligned} \]
從而得到伯努利的最大似然估計為:
\[\begin{aligned} \sum_{i=1}^n(p-x_i) &= 0 \\ \implies p &= \frac{1}{n}\sum_{i=1}^nx_i \end{aligned} \]
總結
求概率模型的最大似然估計的一般步驟如下:
1.寫出隨機變量的概率分布函數;
2.寫出似然函數;
3.對似然函數取對數,並進行化簡整理;
4.對參數進行求導,找到似然函數的極值點;
5.解似然方程。
相信了解邏輯回歸算法的小伙伴已經看出來了,對邏輯回歸的推導其實質上也是最大似然估計算法。在邏輯回歸中,其概率分布函數不再是 $f(x)=p^x(1−p)^{1−x} $,而是:
\[\begin{aligned} P(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y} \end{aligned}\tag{6} \]
其中:
\[\begin{split} h_{\theta}(x)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\theta^{T}x}} \end{split}\tag{7} \]
參考鏈接:https://blog.csdn.net/github_39421713/article/details/89213747