概率密度估計筆記——非參數估計


主要解決在樣本的分布沒有足夠的先驗,也就是說我們不僅不知道分布的參數,連是什么類型的分布都不知道,這種情況下顯然不能用參數估計的方法。這里從簡單直觀的方法——直方圖法入手,引出KNN和Parzen窗兩種方法。

直方圖密度估計:出發點是分布函數 ,假設在某一個很小很小的超立方體V中是均勻分布,那么有

我們就可以得到關於概率密度函數p(x)的估計了

但是要有幾個苛刻的條件

通俗的說就是,在樣本數量n不斷增加趨於無窮大時,要讓小艙體積v盡可能小,同時小艙內有充分多的樣本k,但是每個小艙內的樣本數又必須是總體樣本數中很小的一部分。所以小艙的選擇會對估計的效果產生直接影響,那么下面就給出兩種選擇小艙方法。

 

KNN:

基本做法:固定局部區域K,體積V進行變化。

需要人為調定一個參數 ,代表的是在總樣本數量是N 的情況下我們要使得每個框中落入的樣本個數。

一般選取.

 

Parzen窗:

基本做法:固定局部區域體積V,k變化。

要給出一個窗函數:這里以方窗函數為例(通常也可以有高斯窗,可能更有普遍意義)

那么以點x為中心,體積為 的局部區域內的樣本個數為

這個式子就表示了與x的距離為 的樣本點會被冠以權重1,然后計入中,距離超過 就冠以權重0計入。

得到

其中 被稱為是核函數,通常會有高斯核,方窗核,超球核,指數分布核(抑制噪聲的效果更好一點。從分布密度的形狀可以看出這一點)。他們要滿足概率密度的要求(非負,積分為1)。

h被稱為帶寬,帶寬越大越平滑,帶寬越小越容易接近樣本值也就越容易產生過擬合。

當樣本量不足時要適當加大帶寬以減少噪聲。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM