1. Fisher Information Matrix 和 Hessian of Log Likelihood
這個博客根據Fisher Information的定義,非常清晰地證明了為什么Fisher Information Matrix和負的Hessian of log likelihood是相等的(關鍵步驟是二階導運算符和積分可以互換位置!)。
2. Hessian of Negative Log Likelihood 和 Covariance Matrix
高斯分布假設下,maximum likelihood的等效結果是minimize negative log likelihood(根據高斯分布的概率密度函數可以看出)。同時注意到,negative log likelihood的二階導數(也就是其Hessian),正好是協方差的逆,也就是說此Hessian of Negative Log Likelihood即Inverse of Covariance Matrix。
這個結論可以繼續往下推廣:
當高斯分布的均值是關於狀態的線性函數時,negative log likelihood的二階導數(也就是其Hessian),正好是這個線性變換后的新狀態的的協方差的逆,此時也有Hessian of Negative Log Likelihood (about the original state)等於Inverse of (new) Covariance Matrix。
當高斯分布的均值是關於狀態的非線性函數時,可以做一個線性化將其展開乘線性形式,於是根據上一段的結論,此時Approximate Hessian of Negative Log Likelihood (about the original state)等於Approximate Inverse of (new) Covariance Matrix近似於Inverse of (new) Covariance Matrix。
另外,這里也有一份pdf闡述了我的上述理解。
3. 總結
注意到negative log likelihood其實就得到了我們非常熟悉的指標函數了,在高斯牛頓法中,指標函數做線性展開時得到的Hessian,實際就是前面所說的Approximate Hessian of Negative Log Likelihood (about the original state),這個Hessian,從一個方向近似等於Fisher信息矩陣,從另一個方向則近似等於協方差矩陣的逆。