機器學習中如何選擇分類器


  在機器學習中,分類器作用是在標記好類別的訓練數據基礎上判斷一個新的觀察樣本所屬的類別。分類器依據學習的方式可以分為非監督學習和監督學習。非監督學習顧名思義指的是給予分類器學習的樣本但沒有相對應類別標簽,主要是尋找未標記數據中的隱藏結構。,監督學習通過標記的訓練數據推斷出分類函數,分類函數可以用來將新樣本映射到對應的標簽。在監督學習方式中,每個訓練樣本包括訓練樣本的特征和相對應的標簽。監督學習的流程包括確定訓練樣本的類型、收集訓練樣本集、確定學習函數的輸入特征表示、確定學習函數的結構和對應的學習算法、完成整個訓練模塊設計、評估分類器的正確率。這一節的目的是分類器的選取。可以依據下面四個要點來選擇合適的分類器。

1. 泛化能力和擬合之間的權衡

  過擬合評估的是分類器在訓練樣本上的性能。如果一個分類器在訓練樣本上的正確率很高,說明分類器能夠很好地擬合訓練數據。但是一個很好的擬合訓練數據的分類器就存在着很大的偏置,所以在測試數據上不一定能夠得到好的效果。如果一個分類器在訓練數據上能夠得到很好效果但是在測試數據上效果下降嚴重,說明分類器過擬合了訓練數據。從另一個方面分析,若分類器在測試數據上能夠取得好效果,那么說明分類器的泛化能力強。分類器的泛化和擬合是一個此消彼長的過程,泛化能力強的分類器擬合能力一般很弱,另外則反之。所以分類器需要在泛化能力和擬合能力間取得平衡。

2. 分類函數的復雜度和訓練數據的大小

  訓練數據的大小對於分類器的選擇也是至關重要的,如果是一個簡單的分類問題,那么擬合能力強泛化能力弱的分類器就可以通過很小的一部分訓練數據來得到。反之,如果是一個復雜的分類問題,那么分類器學習就需要大量的訓練數據和泛化能力強的學習算法。一個好的分類器應該能夠根據問題的復雜度和訓練數據的大小自動地調整擬合能力和泛化能力之間的平衡。

3. 輸入的特征空間的維數

  如果輸入特征空間的向量維數很高的話,就會造成分類問題變得復雜,即使最后的分類函數僅僅就靠幾個特征來決定的。這是因為過高的特征維數會混淆學習算法並且導致分類器的泛化能力過強,而泛化能力過強會使得分類器變化太大,性能下降。因此,一般高維特征向量輸入的分類器都需要調節參數使其泛化能力較弱而擬合能力強。另外在實驗中,也可以通過從輸入數據中去除不相干的特征或者降低特征維數來提高分類器的性能。

4. 輸入的特征向量之間的均一性和相互之間的關系

  如果特征向量包含多種類型的數據(如離散,連續),許多分類器如SVM,線性回歸,邏輯回歸就不適用。這些分類器要求輸入的特征必須是數字而且要歸一化到相似的范圍內如 之間。而像K最近鄰算法和高斯核的SVM這些使用距離函數的分類器對於數據的均一性更加敏感。但是另一種分類器決策樹卻能夠處理這些不均一的數據。如果有多個輸入特征向量,每個特征向量之間相互獨立,即當前特征向量的分類器輸出僅僅和當前的特征向量輸入有關,那么最好選擇那些基於線性函數和距離函數的分類器如線性回歸、SVM、朴素貝葉斯等。反之,如果特征向量之間存在復雜的相互關系,那么決策樹和神經網絡更加適合於這類問題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM