KNN和K-means的區別


knn

算法思路:
如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。

k近鄰模型的三個基本要素:

  1. k值的選擇:k值的選擇會對結果產生重大影響。較小的k值可以減少近似誤差,但是會增加估計誤差;較大的k值可以減小估計誤差,但是會增加近似誤差。一般而言,通常采用交叉驗證法來選取最優的k值。
  2. 距離度量:距離反映了特征空間中兩個實例的相似程度。可以采用歐氏距離、曼哈頓距離等。
  3. 分類決策規則:往往采用多數表決。

k-means

算法步驟:
1. 從n個數據中隨機選擇 k 個對象作為初始聚類中心;
2. 根據每個聚類對象的均值(中心對象),計算每個數據點與這些中心對象的距離;並根據最小距離准則,重新對數據進行划分;
3. 重新計算每個有變化的聚類簇的均值,選擇與均值距離最小的數據作為中心對象;
4. 循環步驟2和3,直到每個聚類簇不再發生變化為止。

k-means方法的基本要素:

      1. k值的選擇:也就是類別的確定,與K近鄰中k值的確定方法類似。
      2. 距離度量:可以采用歐氏距離、曼哈頓距離等。
KNN K-Means
1.KNN是分類算法 

 

2.監督學習 

3.喂給它的數據集是帶label的數據,已經是完全正確的數據

1.K-Means是聚類算法 

 

2.非監督學習 

3.喂給它的數據集是無label的數據,是雜亂無章的,經過聚類后才變得有點順序,先無序,后有序

沒有明顯的前期訓練過程,屬於memory-based learning 有明顯的前期訓練過程
K的含義:來了一個樣本x,要給它分類,即求出它的y,就從數據集中,在x附近找離它最近的K個數據點,這K個數據點,類別c占的個數最多,就把x的label設為c K的含義:K是人工固定好的數字,假設數據集合可以分為K個簇,由於是依靠人工定好,需要一點先驗知識


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM