特征選擇/特征提取


定義:

  • 特征選擇是一個「降維」的過程,是一個去掉無關特征,保留相關特征的過程。從所有特征集中選取最好的一個特征子集。
  • 特征提取是一個將機器學習算法不能識別出來的原始數據轉變成可以識別到數據特征的過程。沒有「篩選」的操作,不需要考慮特征是否有用,所以並不能稱其為降維。
    1. 比如說,文本是由一系列文字組成的,這些文字在經過分詞后會形成一個詞語集合,對於這些詞語集合(原始數據),機器學習算法是不能直接使用的,我們需要將它們轉化成機器學習算法可以識別的數值特征(固定長度的向量表示),然后再交給機器學習的算法進行操作。
    2. 再比如說,圖片是由一系列像素點構(原始數據)成的,這些像素點本身無法被機器學習算法直接使用,但是如果將這些像素點轉化成矩陣的形式(數值特征),那么機器學習算法就可以使用了。

通過實例理解,以文本分類為例:

  假設語料庫里有若干文章,現在要對其中一篇文章做分詞處理,把每篇文章都看作是一個詞語的集合。然后將每篇文章作為數據來訓練分類模型,由於原始數據都是單詞並且每篇文章的詞語個數不同,所以不能直接被機器學習算法所利用。因為機器學習需要的是定長的數值化特征,所以我們的目的就是要將所有的原始數據變成數值化來表示,這就是所謂的特征提取。具體步驟如下:

    1. 先對訓練數據里的每一篇文章,做詞語統計(停用詞去除掉),以形成一個詞語向量。最后效果是每一個詞語都代表詞語向量中的一個元素。
    2. 現在每一篇文章都可以用詞語向量來表示,不同的文章有不同的向量值,這也就是表示文本的詞袋模型(bag of words)。
    3. 針對一篇特定的文章,可以利用0-1法來表示其向量的每一個元素的賦值。簡單來說,對於每一篇文章,我們掃描它的詞語集合,如果某一個詞語出現在了詞典中,那么該詞語在詞典向量中對應的元素置為1,否則為0。這是最簡單的方式。其它的方式還包括IR中著名的tf-idf。

  現在每一篇文章已經特征全部提取完畢,但是一定是會有許多無用的特征,這時候就得開始特征選擇

 

注:

1. 詞袋模型:不考慮詞語出現的順序,將每個出現過的詞語單獨作為一列特征,這些不重復的特征詞匯集合成詞表。每一個文本都可以在很長的詞表上統計出一個很多列的特征向量,如果每個文本都出現的詞匯,一般被標記為停用詞,不計入特征向量。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM