//2019.08.03晚
#k-近鄰算法的拓展思考與總結
1、k-近鄰算法是一種非常典型的分類監督學習算法,它可以解決多分類的問題;另外,它的整體思想簡單,效果強大。它也可以用來解決回歸問題,使用的庫函數為KNeighborsRegressor
2、k-近鄰算法雖然可以很好地解決多分類問題,但是它也有很多的缺點,具體主要有以下幾個方面:
(1)效率低下:
對於每一個預測數據都需要O(mxn)的時間復雜度,可以對其利用樹結構進行優化,不過即使優化之后其效率也是比較低下的;
(2)高度數據相關:
一旦數據中存在一些誤差數據(最近周邊的幾個數據一旦出錯),則其准確度就會很難保證,很容易出現錯誤的預測結果。
(3)數據預測結果不具備可解釋性:
預測結果只是來自於對於測試數據最近的點的屬性,整體上很難解釋,也導致了很難進行后續的改進和發展;
(4)維數災難:
隨着數據維度的增加,看似"非常接近"的兩個點之間的距離會越來越遠;當然可以對其進行降維,不過對於整體算法的影響很大。