KNN:
就是計算特征之間的距離,某一個待預測的數據分別與已知的所有數據計算他們之間的特征距離,選出前N個距離最近的數據,這N個數據中哪一類的數據最多,就判定待測數據歸屬哪一類。
假如N=3,圖中待測圓就屬於個數最多那個:三角類
總結:
1、KNN是分類數據最簡單最有效的算法
2、缺點就是存儲空間消耗大,計算耗時。
決策樹:
信息增益:划分數據集之前之后信息發生的變化叫做信息增益。
信息公式:
熵:信息的期望值(熵越高也就是數據混合數據越多,雜亂程度越大)
算法思想:選擇最好信息增益最大的屬性也就是熵最小的特征
注意:特征和特征值的區別,一個特征有幾個特征值。比如:性別特征有男、女兩個特征值。
算法過程:
1、先計算划分數據前的熵(主要是計算類的概率,然后求熵)
2、然后根據特征進行划分數據集,計算划分后的數據熵(根據特征的每一個特征值划分數據,可以計算每一個特征值的信息,最后可以計算特征的熵)
3、划分前的數據熵減去划分后的熵得到信息增益,選擇使數據信息增益最大的那個特征,也就是最好的划分特征。
4、重復2、3(形成一棵樹)最后將數據分類成功。(每一個葉子結點代表一個類)
總結:
1、速度快,容易理解,適合高緯度。
2、容易過擬合,由於訓練數據中存在噪音數據,決策樹的某些節點有噪音數據作為分割標准,導致決策樹無法代表真實數據。