KNN算法

K-近鄰算法原理

K最近鄰(kNN，k-NearestNeighbor)分類算法，見名思意。

我們的目的是要預測某個學生在數學課上的成績。。。
先來說明幾個基本概念：圖中每個點代表一個樣本（在這里是指一個學生），橫縱坐標代表了特征（到課率，作業質量），不同的形狀代表了類別（即：紅色代表A（優秀），綠色代表D（不及格））。

我們現在看（10，20）這個點，它就代表着：在數學課上，某個學生到課率是10%，交作業質量是20分，最終導致了他期末考試得了D等級（不佳）。同理，這6個點也就代表了6個往屆學生的平時狀態和最終成績，稱之為訓練樣本。。。。

現在要來實現我們的預測目的了，想象一下現在一學期快過完了，張三同學馬上要考試了，他想知道自己能考的怎么樣，他在數學老師那里查到了自己的到課率85%，作業質量是90，那么怎么實現預測呢？

張三可以看做是（85,90）這個點–也被稱之為測試樣本，首先，我們計算張三到其他6位同學（訓練樣本）的距離，點到點的距離相信我們初中就學了吧（一般用的歐氏距離）。

再選取前K個最近的距離，例如我們選擇k=3，那么我們就找出距離最近的三個樣本分別屬於哪個類別，此例中，自然三個都是A等，所以可預測出張三的數學期末成績可能是A等（優秀）。倘若李四現在也想進行預測，據他較近的3個中兩個D，一個A，那么李四的數學期末成績被預測為D。這也就是最開始所說的：在前k個樣本中選擇頻率最高的類別作為預測類別。。。

總結其計算步驟如下：

<strong><code>1）算距離：給定測試對象，計算它與訓練集中的每個對象的距離
2）找鄰居：圈定距離最近的k個訓練對象，作為測試對象的近鄰
3）做分類：根據這k個近鄰歸屬的主要類別，來對測試對象分類</code></strong>

<strong><code>1）算距離：給定測試對象，計算它與訓練集中的每個對象的距離

2）找鄰居：圈定距離最近的k個訓練對象，作為測試對象的近鄰

3）做分類：根據這k個近鄰歸屬的主要類別，來對測試對象分類</code></strong>

好了，經過上訴過程，你是否對KNN算法基本思想有了一定了解。

2 K-近鄰的優缺點

KNN算法的優點：

1）簡單、有效。

2）重新訓練的代價較低（類別體系的變化和訓練集的變化，在Web環境和電子商務應用中是很常見的）。

3）計算時間和空間線性於訓練集的規模（在一些場合不算太大）。

4）由於KNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對於類域的交叉或重疊較多的待分樣本集來說，KNN方法較其他方法更為適合。

5）該算法比較適用於樣本容量比較大的類域的自動分類，而那些樣本容量較小的類域采用這種算法比較容易產生誤分。

KNN算法缺點：

1）KNN算法是懶散學習方法（lazy learning,基本上不學習），一些積極學習的算法要快很多。

2）類別評分不是規格化的（不像概率評分）。

3）輸出的可解釋性不強，例如決策樹的可解釋性較強。

4）該算法在分類時有個主要的不足是，當樣本不平衡時，如一個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入一個新樣本時，該樣本的K個鄰居中大容量類的樣本占多數。

該算法只計算“最近的”鄰居樣本，某一類的樣本數量很大，那么或者這類樣本並不接近目標樣本，或者這類樣本很靠近目標樣本。無論怎樣，數量並不能影響運行結果。可以采用權值的方法（和該樣本距離小的鄰居權值大）來改進。

5）計算量較大。目前常用的解決方法是事先對已知樣本點進行剪輯，事先去除對分類作用不大的樣本。3 K-近鄰算法的Python實現

友情提示：本代碼是基於Python2.7的，而且需要提前安裝numpy函數庫（這是我們常用的強大的科學計算包）。。。。

3.1 首先我們介紹一下代碼實現步驟：

<strong><code>1）計算已知類別數據集中的點與當前點之間的距離
2）按距離遞增次序排序
3）選取與當前點距離最小的k個點
4）統計前k個點所在的類別出現的頻率
5）返回前k個點出現頻率最高的類別作為當前點的預測分類</code></strong>

<strong><code>1）計算已知類別數據集中的點與當前點之間的距離

2）按距離遞增次序排序

3）選取與當前點距離最小的k個點

4）統計前k個點所在的類別出現的頻率

5）返回前k個點出現頻率最高的類別作為當前點的預測分類</code></strong>

轉載於數據科學與編程

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 KNN算法簡介 KNN算法 KNN算法/HNSW算法 KNN算法原理及實現 KNN分類算法海倫去約會——kNN算法 knn算法之預測數字 KNN算法--python實現基於kNN的人臉識別算法 KNN算法實現數字識別