這一部分內容和吳恩達老師的CS229前面的部分基本一致,不過那是很久之前看的了,我盡可能寫的像吳恩達老師那樣思路縝密。
1.假設
之前我們了解過最大似然估計就是最大化似然函數$$L(\theta) = \sum log(p(x_{i}|\theta))$$
來確定參數\(\theta\),假設我們獨立測量的結果X(x1,x2,x3...)是有誤差的,且每個測量結果的誤差分布相同,即獨立同分布。我們再假定測量結果滿足以真實結果\(f(x|\theta)\)為均值,方差為\(\sigma\),標准差為\(\delta\)的高斯分布,注意這里的\(\theta\)指最優的參數解,但它是未知的。
2.推導
在給出一定假設后,我們根據最大似然估計的方法來進行推到。首先我們假定測量結果的分布函數后,可以得到以\(\theta\)為參數時,預測結果等於測量結果的概率:
$$p(x=xi|\theta) = \frac{1}{\sqrt{2\pi}\delta} e^{-\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}}$$
進而對數似然函數變為:
$$L(\theta) = \frac{1}{\sqrt{2\pi}\delta}\sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$
我們最大化似然函數,等同於最大化求和部分:
$$\widehat(L)(\theta) = \sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$
我們要求的\(\theta\)有:
$$\theta = argmax \sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$
等同於:
$$\theta = argmin \sum \frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$
進一步化簡有:
$$\theta = argmin \sum (xi-f(x|\theta))^{2}$$
3.分析
通過上面推導,我們發現,在假定測量誤差滿足獨立同分布時,最大似然估計和最小二乘法有一定的相通性,但這並不表明二者是相同的!最大似然估計是要滿足預測結果和測量結果一致的概率最大,而最小二乘法估計要滿足預測結果和測量結果盡可能接近(二范式距離的平方最小),二者的測度和出發點不一樣,但又有聯系。