主要解決在樣本的分布沒有足夠的先驗,也就是說我們不僅不知道分布的參數,連是什么類型的分布都不知道,這種情況下顯然不能用參數估計的方法。這里從簡單直觀的方法——直方圖法入手,引出KNN和Parzen窗兩種方法。
直方圖密度估計:出發點是分布函數 ,假設在某一個很小很小的超立方體V中是均勻分布,那么有
我們就可以得到關於概率密度函數p(x)的估計了。
但是要有幾個苛刻的條件
通俗的說就是,在樣本數量n不斷增加趨於無窮大時,要讓小艙體積v盡可能小,同時小艙內有充分多的樣本k,但是每個小艙內的樣本數又必須是總體樣本數中很小的一部分。所以小艙的選擇會對估計的效果產生直接影響,那么下面就給出兩種選擇小艙方法。
KNN:
基本做法:固定局部區域K,體積V進行變化。
需要人為調定一個參數 ,代表的是在總樣本數量是N 的情況下我們要使得每個框中落入的樣本個數。
一般選取
.
Parzen窗:
基本做法:固定局部區域體積V,k變化。
要給出一個窗函數:這里以方窗函數為例(通常也可以有高斯窗,可能更有普遍意義)
那么以點x為中心,體積為 的局部區域內的樣本個數為
這個式子就表示了與x的距離為 的樣本點會被冠以權重1,然后計入
中,距離超過
就冠以權重0計入。
由得到
其中 被稱為是核函數,通常會有高斯核,方窗核,超球核,指數分布核(抑制噪聲的效果更好一點。從分布密度的形狀可以看出這一點)。他們要滿足概率密度的要求(非負,積分為1)。
h被稱為帶寬,帶寬越大越平滑,帶寬越小越容易接近樣本值也就越容易產生過擬合。
當樣本量不足時要適當加大帶寬以減少噪聲。