一起啃PRML - 1.2.4 The Gaussian distribution 高斯分布 正態分布


一起啃PRML - 1.2.4 The Gaussian distribution 高斯分布 正態分布

@copyright 轉載請注明出處 http://www.cnblogs.com/chxer/  

 

我們將用整個第二章來研究各種各樣的概率分布以及它們的性質。然而,在這里介紹連續變量一種最重要的概率分布是很方便的。這種分布就是正態分布(normal distribution)或者高斯分布(Gaussian distribution)。在其余章節中(事實上在整本書中),我們將會經常用到這種分布。 

 

正態分布是這么定義的:

 

圖像長成這樣:

我們待會被數學折磨完后再來了解這些參數的意義。

先來看看正態分布幾個性質:全正且歸一

 

好,接下來我們來算一下正態分布的期望以及二階矩的期望以及方差。

先從簡單的一階期望開始:

然后我們就磨出來了,喜大普奔。

二階矩似乎道理是一樣的。以后再補上吧。

那么我們就把方差求出來了:

現在我們就知道每一個參數的意義了:

μ,被叫做均值(mean),以及σ2,被叫做方差(variance)。方差的平方 根,由σ給定,被叫做標准(standard deviation)。方差的倒數,記作β = 1 ,被叫做精度。

 

分布的最大值是眾數。對於正態分布來說,眾數是等於均值的。

我們也對D維向量x的正態分布感興趣(不包括我),它是這么定義的:

現在假定我們有一個觀測的數據集x = (x1, . . . , xN )T ,表示標量變量x的N次觀測。注意, 我們使用一個字體不同的x來和向量變量(x1, . . . , xD)T 作區分,后者記作x。我們假定各次觀 測是獨立地從高分布中抽取的,分布的均值μ和方差σ2未知,我們想根據數據集來確定這 參數。獨立地從相同的數據中抽取的數據點被稱為獨立同分布(independent and identically distributed),通常縮寫成i.i.d.。我們已看到兩個獨立事件的聯合概率可以由各個事件的邊緣概率的乘積得到。由於我們的數據集x是獨立同布的,因此給定μ和σ2,我們可以給出數據集的概率:

 

我們就得到了正態分布的似然函數。我們取對數就可以得到對數似然函數:

我們分別關於兩個參數最大化對數似然函數,就得到了樣本均值和樣本方差:

  

事實上,我們發現樣本均值應該是無偏的,也就是有:

對於樣本方差,我們則需要考量。

 

當數據點的數量N增大時,最大似然解的偏移會變得不太嚴重,並且在極 限N → ∞的情況下,方差的最大似然解與產生數據的分布的真實方差相等。在實際應用中,只要N 的值不太小,那么偏移的現象不是個大問題。然而,在本書中,我們感興趣的是帶有很多參數的復雜模型。這些模型中,最大似然的偏移問題會更加嚴重。實際上,我們會看到,最大似然的偏移問題是我們在多項式曲線擬合問題中遇到的過擬合問題的核心。 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM