加權kNN

　　上篇文章中提到為每個點的距離增加一個權重，使得距離近的點可以得到更大的權重，在此描述如何加權。

反函數

　　該方法最簡單的形式是返回距離的倒數，比如距離d，權重1/d。有時候，完全一樣或非常接近的商品權重會很大甚至無窮大。基於這樣的原因，在距離求倒數時，在距離上加一個常量：

　　weight = 1 / (distance + const)

　　這種方法的潛在問題是，它為近鄰分配很大的權重，稍遠一點的會衰減的很快。雖然這種情況是我們希望的，但有時候也會使算法對噪聲數據變得更加敏感。

　　高斯函數比較復雜，但克服了前述函數的缺點，其形式：

　　其中a,b,c∈R

　　高斯函數的圖形在形狀上像一個倒懸着的鍾。a是曲線的高度，b是曲線中心線在x軸的偏移，c是半峰寬度（函數峰值一半處相距的寬度）。

半峰寬度

def gaussian(dist, a=1, b=0, c=0.3): return a * math.e ** (-(dist - b) ** 2 / (2 * c ** 2))

　　上面的高斯函數在距離為0的時候權重為1，隨着距離增大，權重減少，但不會變為0。下圖是高斯函數和其它幾個函數的區別，其它函數在距離增大到一定程度時，權重都跌至0或0以下。

　　加權kNN首先獲得經過排序的距離值，再取距離最近的k個元素。

　　1.在處理離散型數據時，將這k個數據用權重區別對待，預測結果與第n個數據的label相同的概率：

　　2.在處理數值型數據時，並不是對這k個數據簡單的求平均，而是加權平均：通過將每一項的距離值乘以對應權重，讓后將結果累加。求出總和后，在對其除以所有權重之和。

　　D_i代表近鄰i與待預測值x的距離，W_i代表其權重，f(x)是預測的數值型結果。每預測一個新樣本的所屬類別時，都會對整體樣本進行遍歷，可以看出kNN的效率實際上是十分低下的。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 k最鄰近算法——加權kNN 判別分析--KNN、有權重的K最鄰近算法 [機器學習] ——KNN K-最鄰近算法 k鄰近算法(KNN)實例最鄰近規則分類KNN算法 k最鄰近算法——使用kNN進行手寫識別 matlab練習程序（KNN，K最鄰近分類法） K-最鄰近算法總結 KNN鄰近分類算法最鄰近算法（KNN）識別數字驗證碼