一、KNN算法(k-NearestNeighbor),k臨近值算法:在給出一個數據點以后,判斷它和已有數據點之間的距離,取k個距離最近的點,這些點中存在的那一類點最多就講這個新的數據點歸位那一類。
• 容易存在的問題:
1.、k 值過小,容易出現過擬合問題,結果就是在訓練集上准確度很高,但是在測試集上就很低。
2、特征的比重失衡。在計算樣本點之間的距離時,如果不同的維度存在數量級差異,就會導致某些特征所起到的作用(對距離的影響)過大或過小。所以要進行歸一化處理來避免這種問題的出現。
• 距離的度量:歐式距離、曼哈頓距離、取最大值等等
二、k-d(K-demension tree)樹:將空間划分為特定的幾個部分,在特定的部分內進行相關搜索。