核概率密度估計
本文分為三個部分:第一部分是直方圖,討論了如何創建它以及它的屬性是什么樣的。第二部分是核密度估計,介紹了它對比直方圖有哪些改進和更一般性的特點。
最后一部分是,為了從數據中抽取所有重要的特征,怎么樣選擇最合適,漂亮的核函數。
直方圖
直方圖是最簡單,並且也是最常見的一種的非參數概率密度估計方法
為了構造直方圖,我們需要把數據取值所覆蓋的區間分成相等的小區間,可以叫做“箱子”,每次一個數據值將會掉落在一個特定的小區間中,一個“箱子”寬度的盒子就會壘在數據點的上方。當我們構造直方圖的時候,需要考慮兩件事情: 第一,“箱子”的寬度,第二,箱子的結束位置。
這里用的數據是1956年到1984年的飛機的機翼的跨度(完整的數據可以在Bowman & Azzalini(1997)Applied Smoothing Techniques for Data Analysis 找到)。我們只用到其中的一部分數據,也就是2, 22, 42, 62, 82, 102, 122, 142,162, 182, 202 and 222。為了在圖上顯示的方便我們只使用了部分的數據,否則一些點就會變得稠密看不清。數據點在x軸上用十字叉表示。
如果我們選擇在0 和 0.5作為分界點 並且帶寬為0.5,直方圖看起來就像下面左邊的圖形,相對直方圖的左邊它的概率密度看起來是單峰形狀並且滑向右邊,
右邊的直方圖選擇分界點在0.25和0.75之間,並且選擇了相同的“箱子”寬度,現在我們得到了一個完全不同的概率密度估計,它看起來是一個雙峰模型。
我們已經用了上面的兩個例子講解了直方圖的特性,他們是
- 不平滑
- 依賴“箱子”的結束點
- 依賴箱子的寬度
我們可以通過使用核密度估計方法消除前面兩個問題,為了去掉對“箱子”結束點的依賴,我們把需要累加到數據點上的箱子安裝數據點的位置為中心對齊而不是按照“箱子”的結束點對齊。
在上面這個新的直方圖中,我們把“箱子”換成寬1/2 高 1/6 (如虛線框標注的箱子),一共有12個數據點,然后把他們加在一起(以數據點為中心,重疊的部分往上累加)。
這個概率密度估計(圖中實線部分)比前面提到的直方圖少了很多矩形塊狀,因為我們抽取出了更好的結構,概率密度估計看起來是雙峰的結構。
我們把它叫做盒子核密度估計。 這個密度估計仍然不是連續的因為我們用了一個不連續的核做為我們構建的基礎塊。如果我們使用一個平滑的核做為構建的基礎塊,那么我們會得到一個平滑的核密度估計,因此我們可以消除直方圖問題中的第一個(不平滑問題),但不幸運的是,我們仍然不能消除對帶寬(“盒子寬度”)的依賴
選擇一個合適的帶寬值是非常重要的,太大或者太小的值都沒有多大的用處。
如果我們選擇一個高斯核,帶寬(標准差)為0.1(每一個高斯核曲線下方的面積為1/12,因為有12個高斯曲線,為了保證所有的概率密度曲線的面積為1),那么這個核密度估計是欠平滑的因為帶寬太小的原因。看下面的圖中左邊圖中,這有4個峰值在該密度估計中,其中一些是因為數據的問題(some of these are surely artifices of the data,不知道如何翻譯)。我們可以通過增加高斯核的帶寬到0.5來設法消除這些影響,我們獲得了一個更平滑的單峰的估計模型。這種情況就是過平滑,因為我們選擇了一個比較大的帶寬,忽略了比較多的數據本身的結構特征。
那么我們怎么選擇一個最優的帶寬呢?一個通用的辦法是使用最小化最優誤差(該誤差是一個最優帶寬的函數)AMISE(Asymptotic Mean Integrated Squared Error)的帶寬.因此最優帶寬就是 argmin AMISE 也就是選擇使得AMISE最小的參數作為帶寬。
一般來說,AMISE 任然要依賴於隱藏在背后的真實的概率分布(顯然我們得不到這個分布)。因此我們需要從觀測的數據中去估計AMISE,這意味着帶寬的選擇是一個漸進近似的估計。這聽起來好像遠離了真實的最優值,但是事實證明這種特殊的帶寬選擇方式覆蓋了幾乎所有重要的特征同時保持了估計的平滑性。
在我們的數據集中,最優的帶寬值設置為0.25。從最優化的平滑和密度估計中可以看出有兩個峰。因為這些是飛行器機翼跨度的數據記錄,這表示有一組小型輕量級的飛機的制造。這些聚類在2.5附近(大概是12米)。然而從1960年起,大型的裝配了噴氣式引擎的商業用途的飛機的聚類在3.5附近(33米)
核密度估計是在概率論中用來估計未知的密度函數,屬於非參數檢驗方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。
假設我們有n個數X1-Xn,我們要計算某一個數X的概率密度有多大。核密度估計的方法是這樣的:
其中N(x,z)為正太分布的概率密度函數,z為設定的參數。
(1)基本原理: 核密度估計的原理其實是很簡單的。在我們對某一事物的概率分布的情況下。如果某一個數在觀察中出現了,我們可以認為這個數的概率密度很比大,和這個數比較 近的數的概率密度也會比較大,而那些離這個數遠的數的概率密度會比較小。基於這種想法,針對觀察中的第一個數,我們都可以f(x-xi)去擬合我們想象中 的那個遠小近大概率密度。當然其實也可以用其他對稱的函數。針對每一個觀察中出現的數擬合出多個概率密度分布函數之后,取平均。如果某些數是比較重要,某 些數反之,則可以取加權平均。
與直方圖比較,核密度估計的屬性列表如下:
- 平滑性
- 不依賴核的尾部位置
- 依賴帶寬的選擇
這是一個對核密度估計的入門介紹問題,當前的研究狀態是,一維下的很多問題已經被解決了,下一階段需要擴展這些思想到多維的情況,這些情況還少有研究成果
這是由於多維核的方向對概率密度的估計有很大的影響(which has no counter part inone-dimensionalkernels這種情況下找不到一維概率密度相對應的核函數)
作者當前正在為對維核尋找可靠的帶寬選擇方法。當前取得的進展是plug-in 方法可以在這里找到,但是這篇文章更多的技術性並且用到了更多的方程。
原文地址:http://www.mvstat.net/tduong/research/seminars/seminar-2001-05/
把非參數估計的方法講的很淺顯易懂,主要是原理上的處理,對缺少先驗知識的情況下,估計概率密度函數很有用,同樣對高斯混合模型,有的地方可以看到,說一個分部可以通過多個高斯分布混合來擬合出來,看起來好像沒有什么區別,混合高斯模型與核密度估計,都是從數據估計概率分布的情況,但是混合高斯模型的應用場景是幾乎可以判定數據是從高斯模型生成的,或者是近似高斯分布的,利用了先驗知識,得到的結果可能更好一些,用於分類的場景比較多,核密度估計方法主要是用於概率密度估計,完全沒有先驗知識。目前的理解只能到這里,后面如果有更多的理解會繼續添加新的理解。