概率密度估計筆記——非參數估計

本文轉載自查看原文 2016-03-20 10:39 2000 直方圖方法/ parzen窗方法/ KNN/ 非參數估計

主要解決在樣本的分布沒有足夠的先驗，也就是說我們不僅不知道分布的參數，連是什么類型的分布都不知道，這種情況下顯然不能用參數估計的方法。這里從簡單直觀的方法——直方圖法入手，引出KNN和Parzen窗兩種方法。

直方圖密度估計：出發點是分布函數，假設在某一個很小很小的超立方體V中是均勻分布，那么有

我們就可以得到關於概率密度函數p(x)的估計了。

但是要有幾個苛刻的條件

通俗的說就是，在樣本數量n不斷增加趨於無窮大時，要讓小艙體積v盡可能小，同時小艙內有充分多的樣本k，但是每個小艙內的樣本數又必須是總體樣本數中很小的一部分。所以小艙的選擇會對估計的效果產生直接影響，那么下面就給出兩種選擇小艙方法。

KNN:

基本做法：固定局部區域K，體積V進行變化。

需要人為調定一個參數 ,代表的是在總樣本數量是N 的情況下我們要使得每個框中落入的樣本個數。

一般選取.

Parzen窗：

基本做法：固定局部區域體積V,k變化。

要給出一個窗函數：這里以方窗函數為例（通常也可以有高斯窗，可能更有普遍意義）

那么以點x為中心，體積為的局部區域內的樣本個數為

這個式子就表示了與x的距離為的樣本點會被冠以權重1，然后計入中，距離超過就冠以權重0計入。

由得到

其中被稱為是核函數，通常會有高斯核，方窗核，超球核，指數分布核（抑制噪聲的效果更好一點。從分布密度的形狀可以看出這一點）。他們要滿足概率密度的要求（非負，積分為1）。

h被稱為帶寬，帶寬越大越平滑，帶寬越小越容易接近樣本值也就越容易產生過擬合。

當樣本量不足時要適當加大帶寬以減少噪聲。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 概率密度估計--參數估計與非參數估計非參數估計——核密度估計（Parzen窗）非參數估計：核密度估計KDE 概率密度估計介紹核概率密度估計介紹【機器學習】--非參數估計實驗 parzen窗以及k-近鄰概率密度非參數密度估計非參數估計之 kernel density estimation (核密度估計) 參數估計&非參數估計 R語言與非參數統計（核密度估計）