我們常常遇到一些這樣的名詞,比如說SVM(支持向量機),貝葉斯,k臨近法。這些都是分類器,去查找這些名詞時,你會找到一大推的數學公式,這瞬間勸退我這種數學不是太好的人,下面簡單談一下我的理解;
書上定義:在機器學習中,分類器作用是在標記好類別的訓練數據基礎上判斷一個新的觀察樣本所屬的類別。
什么意思:我們從一個簡單的k臨近法來說,也就是我們的KNN算法;
其原理很簡單,就是取一個點,找到離這個點最近的n個點,看哪一個類別最多,就預測那一個類別。
我們需要找到藍星
的所屬類別,它要么屬於紅色類
要么屬於綠色類
。算法KNN中的K
指的是某點的K個用來投票的鄰居,少數服從多數。K個鄰居中投票最多的屬性代表該點的屬性。在本例子中我們將K設置為3,我們會給藍星
畫一個圈圍住最近的K=3個點。
我們看到藍星
最近的三個鄰居都是紅色類
,所以我們可以認為藍星的類別是紅色類
。
這就是KNN算法,我們從這個算法中就可以理解分類的概念。
1:分類是根據已有的數據來對未知的數據進行分類,也就是說我們需要有數據庫。
2.對已有的數據庫用一系列的算法來進行分類,也就是我們所說的訓練樣本,我們先要知道我們已有的訓練樣本中各個數據的分類;
3.在對未知的樣本進行分類,怎么分類呢?在已知的訓練樣本基礎上,根據訓練樣本的特征,使用一些數學公式來對未知樣本划分。
基本的分類器概念理解清楚了,要想進一步深入,可參考下面博文: