最大似然估計的目標是獲取模型中的參數。前提是模型已經是半成品,萬事俱備只欠參數。此外,對樣本要求獨立同分布(參數就一套)
上圖中x ~ B(theta). 樣本數為M.
最大似然估計用似然函數作為優化目標,參數估計的過程為尋優過程。一般情況下認為,如果該參數使得數據發生的可能性最大,則該參數為最可能的一組參數。數學表達為下圖:
1、充分統計
充分統計是從樣本映射到某個向量的一個公式。這個公式必須滿足甲樣本映射結果的和,必須與乙樣本映射結果的和相同。而且這個必須成立,與總體分布的參數無關。例子:樣本均值,樣本方差。
這種求和一致性如果設計合理的情況下, 可以直接導出參數的 表達式
比如在投硬幣的統計模型中,T與H各自的數目就是充分統計量
又比如在估計骰子的bias的統計模型中,我們只在乎各個數字出現的次數,而不在乎順序。此時的充分統計量為骰子的數字
在高斯模型中,可做以下分解:
如果觀測到x不同的值,則可斷定,1,x,x^2,是充分統計量。
2、參數的極大似然估計
在充分統計的條件下,參數的極大似然估計有着優雅的解析解。
3、貝葉斯網絡中的極大似然估計
3.1、獨立參數的貝葉斯網絡
在極大似然估計的觀點中,參數是隨機變量,其有着自己的模型。如果考慮一個概率圖模型,那么在對參數進行估計時就必須考慮隨機變量之間的交互關系。一個簡單的未知參數貝葉斯網絡如圖所示:
待估計的參數為theta_x,theta_y|x. 其中theta_x有兩個取值,theta_y|x有四個取值。其解析表達式如下圖:
第二步使用了鏈式分解,第四步將參數進行分開表達。更一般的,有下式:
第三部對調乘法,則后面簡化為局部似然函數(某個隨機變量的似然函數)。如果每個節點都有自己的獨立參數,則最終的似然函數為局部似然函數的乘積。如果為表式CPD,則概率值就是參數值,那么又可簡化為下式:
故對於表式CPD的貝葉斯網絡,theta_x|parents = x出現的次數/父節點總數(邊際所有x的可能性)
3.2 共享參數貝葉斯網絡
共享參數貝葉斯網絡往往描述一個轉移過程。機器人直走有一定概率走偏,方向偏了繼續直走,下次走偏的模式依舊是一定的。估計“走偏函數”的參數實際上是用的就是共享參數貝葉斯網絡。
共享參數貝葉斯網絡不能直接看作獨立參數貝葉斯網絡的特例。因為其要多一條限制即參數均相等。如果依舊使用獨立參數貝葉斯模型,則參數無法統一。
上述模型中s~B(0,1),故theta共有4種:0-1,0-0,1-1,1-0.
第二步中,總次數T被分解成上述四種情況。ij實際表達的是i->j。一個更復雜些的共享參數貝葉斯網絡如圖:
4、小技巧
當樣本不大時,使用簡單而錯誤的網絡效果可能比復雜但正確的網絡好。原因是網絡復雜了容易對數據進行過擬合。