1) 極/最大似然估計 MLE
給定一堆數據,假如我們知道它是從某一種分布中隨機取出來的,可是我們並不知道這個分布具體的參,即“模型已定,參數未知”。例如,我們知道這個分布是正態分布,但是不知道均值和方差;或者是二項分布,但是不知道均值。 最大似然估計(MLE,Maximum Likelihood Estimation)就可以用來估計模型的參數。MLE的目標是找出一組參數,使得模型產生出觀測數據的概率最大:
其中就是似然函數,表示在參數
下出現觀測數據的概率。我們假設每個觀測數據是獨立的,那么有
為了求導方便,一般對目標取log。 所以最優化對似然函數等同於最優化對數似然函數:
例子1:舉一個拋硬幣的簡單例子。 現在有一個正反面不是很勻稱的硬幣,如果正面朝上記為H,方面朝上記為T,拋10次的結果如下:
求這個硬幣正面朝上的概率有多大?
很顯然這個概率是0.2。現在我們用MLE的思想去求解它。我們知道每次拋硬幣都是一次二項分布,設正面朝上的概率是,那么似然函數為:
x=1表示正面朝上,x=0表示方面朝上。那么有:
求導:
令導數為0,很容易得到:
也就是0.2 。
總結一下:求極大似然函數估計值的一般步驟
(1) 寫出似然函數;
(2) 對似然函數取對數,並整理;
(3) 求導數;
(4) 解似然方程 。
例子2:假如一個盒子里面有紅黑共10個球,每次有放回的取出,取了10次,結果為7次黑球,3次紅球。問拿出黑球的概率 p 是多少?
我們假設7次黑球,3次紅球為事件 A ,一個理所當然的想法就是既然事件 A已經發生了,那么事件 A 發生的概率應該最大。所以既然事件 A 的結果已定, 我們就有理由相信這不是一個偶然發生的事件,這個已發生的事件肯定一定程度上反映了黑球在整體中的比例。所以我們要讓模型產生這個整體事件的概率最大,我們把這十次抽取看成一個整體事件 A ,很明顯事件 A 發生的概率是每個子事件概率之積。我們把 P(A) 看成一個關於 p 的函數,求 P(A) 取最大值時的 p ,這就是極大似然估計的思想。具體公式化描述為P(A)=p^7*(1-p)^3。
接下來就是取對數轉換為累加,然后通過求導令式子為0來求極值,求出p的結果。
MLE是頻率學派模型參數估計的常用方法。
-顧名思義:似然,可以簡單理解為概率、可能性,也就是說要最大化該事件發生的可能性
-根據已知樣本,希望通過調整模型參數來使得模型能夠最大化樣本情況出現的概率。
(2)最大后驗概率估計(MAP)
-是貝葉斯派模型參數估計的常用方法。
-顧名思義:就是最大化在給定數據樣本的情況下模型參數的后驗概率
-依然是根據已知樣本,來通過調整模型參數使得模型能夠產生該數據樣本的概率最大,只不過對於模型參數有了一個先驗假設,即模型參數可能滿足某種分布,不再一味地依賴數據樣例(萬一數據量少或者數據不靠譜呢)。
例子1:在這里舉個擲硬幣的例子:拋一枚硬幣10次,有10次正面朝上,0次反面朝上。問正面朝上的概率p。
在頻率學派來看,利用極大似然估計可以得到 p= 10 / 10 = 1.0。顯然當缺乏數據時MLE可能會產生嚴重的偏差。
如果我們利用極大后驗概率估計來看這件事,先驗認為大概率下這個硬幣是均勻的 (例如最大值取在0.5處的Beta分布),那么P(p|X),是一個分布,最大值會介於0.5~1之間,而不是武斷的給出p= 1。顯然,隨着數據量的增加,參數分布會更傾向於向數據靠攏,先驗假設的影響會越來越小。
MAP優化的是一個后驗概率,即給定了觀測值后使概率最大:
把上式根據貝葉斯公式展開:
我們可以看出第一項就是似然函數,第二項
就是參數的先驗知識。取log之后就是:
回到剛才的拋硬幣例子,假設參數有一個先驗估計,它服從Beta分布(見后),即:
而每次拋硬幣任然服從二項分布:
那么,目標函數的導數為:
求導的第一項已經在上面MLE中給出了,第二項為:
令導數為0,求解為:
其中,表示正面朝上的次數。這里看以看出,MLE與MAP的不同之處在於,MAP的結果多了一些先驗分布的參數。
————————————————————————————————————
補充知識: Beta分布
Beat分布是一種常見的先驗分布,它形狀由兩個參數控制,定義域為[0,1]
Beta分布的最大值是x等於的時候:
所以在拋硬幣中,如果先驗知識是說硬幣是勻稱的,那么就讓。 但是很顯然即使它們相等,它兩的值也對最終結果很有影響。它兩的值越大,表示偏離勻稱的可能性越小:
(3)MAP和MLE的區別和聯系
極大后驗估計(Maximum A Posterior, MAP)
上述最大似然估計有一個問題,就是沒有考慮到模型本身的概率分布。
極大似然估計是求使得P(x|θ)取最大值的θ值,而極大后驗概率是求使得P(x|θ)p(θ),即P(θ|x),取最大值的θθ值.
由貝葉斯定理:
最大似然估計可以理解為當先驗概率P(θ)P(θ)為均勻分布時的極大后驗估計器。極大后驗估計根據經驗數據獲得對難以觀察的量的點估計。與最大似然估計類似,但是最大的不同是,最大后驗估計融入了要估計量的先驗分布在其中,可看做是規則化的最大似然估計。
注:最大后驗估計可以看做貝葉斯估計的一種特定形式。
MAP函數的求解和MLE函數的求解方法相同,都是先取對數,然后通過微分求解。MAP與MLE最大區別是MAP中加入了模型參數本身的概率分布,或者說。MLE中認為模型參數本身的概率的是均勻的,即該概率為一個固定值。
(4)最小二乘法
最小二乘法(Least Square)
通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用於曲線擬合。
求解:多元函數求極值的方法,對θ求偏導,讓偏導等於0,求出θ值。當θ為向量時,需要對各個θi求偏導計算。