K-NN算法概述


一、KNN算法(k-NearestNeighbor),k臨近值算法:在給出一個數據點以后,判斷它和已有數據點之間的距離,取k個距離最近的點,這些點中存在的那一類點最多就講這個新的數據點歸位那一類。

 • 容易存在的問題:

  1.、k 值過小,容易出現過擬合問題,結果就是在訓練集上准確度很高,但是在測試集上就很低。

  2、特征的比重失衡。在計算樣本點之間的距離時,如果不同的維度存在數量級差異,就會導致某些特征所起到的作用(對距離的影響)過大或過小。所以要進行歸一化處理來避免這種問題的出現。

 • 距離的度量:歐式距離、曼哈頓距離、取最大值等等

 

二、k-d(K-demension tree)樹:將空間划分為特定的幾個部分,在特定的部分內進行相關搜索。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM