前言:介紹了最簡單的最大似然估計,距離實現「朴素貝葉斯」還有一些距離。在這篇文章,我想分享一下,我所理解的「最大似然估計 - 高斯分布」。
問題
(這里都是玩具數據,為了方便理解才列出)
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
X | 1 | 2 | 3 | 4 | 4.2 | 4.4 | 4.6 | 4.8 | 5 | 6 | 7 | 8 |
y | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 |
假設 x = 4.9 用科學的辦法估計 y 的分類。
預備知識
高斯分布的概率密度函數

理解
通常用「概率密度函數」代替概率,僅僅去比較大小。還有其他的分布,我也沒有去深挖 :)。而不是直接求出概率。這非常重要!!!
求解問題
- 寫出這個數據集的似然函數
還記得之前我們說過的「似然函數」嗎?現在寫出這個數據的「似然函數」
P(y=0 | x) = P(y=0 | x=1)P(y=0 | x=2)P(y=0 | x=3)P(y=0 | x=4)P(y=0 | x=5)P(y=0 | x=6)P(y=0 | x=7)P(y=0 | x=8)
P(y=1 | x) = P(y=1 | x=4.2)P(y=0 | x=4.4)P(y=0 | x=4.6)P(y=0 | x=4.8)
似然函數的本質描述出現這個情形的概率,最大化它即是是這個情形出現的概率最大。現在遇到了一個問題,我們無法寫出等式左邊的每一項。就更別談最大化似然函數了。
常用的方法用概率密度函數替代概率。
比如:把 x = 1 帶入概率密度函數代替 P(y=0 | x=1)。
所以最大化多個概率相乘變為了,最大化多個概率密度函數的相乘
- 最大化多個概率密度函數的相乘
取對數求導,並讓導數為 0 。最后能得到一個非常舒適的結論。

- 解決問題
現在求得兩組 (mu, sigma), (mu, sigma) 用來分別表示。
y = 1 時,最符合數據的概率密度函數 1
y = 0 時,最符合數據的概率密度函數 2
將 x = 4.9 分別帶入函數 1、函數 2 中比較大小,最后確定 y 的類別。
最后總結
-
似然函數用來描述:已知情況的概率隨參數變化的圖像
-
最大化似然函數能得到,使這個情況出現概率最大的參數。
-
但是有時候,不能寫出概率。常用概率密度函數代替概率。這非常重要。
-
如果假設高斯分布,那么通過「最大似然估計」會得到一個非常舒適的結果。見上述圖片
-
最后結果的導出,使用概率密度函數來代替概率求解。
鏈接:https://www.jianshu.com/p/0c918fdea051
來源:簡書