本文轉載自查看原文 2020-03-15 21:53 1443 算法與數據挖掘

在業界廣泛流傳着一句話：數據和特征決定了機器學習的上限，而模型和算法只是逼近這個上限而已。

由此可見，數據和特征是多么的重要，而在數據大多數場景下，數據已經就緒，不同人對於同樣的數據處理得到的特征卻千差萬別，最終得到的建模效果也是高低立現。從數據到特征這就要從特征工程說起了...

0. 特征工程

首先介紹下，特征工程是什么：利用數據領域的相關知識來創建能夠使機器學習算法達到最佳性能的特征的過程^[1.wiki]。特征工程是一個較大領域，它通常包括特征構建、特征提取和特征選擇這三個子模塊，重要性排序：特征構建>特征提取>特征選擇。

先來介紹幾個術語：

其中本文主要總結下可統一用於特征降維的特征提取和特征選擇技術方法，特征構建涉及技術點較少，下回再分解。

1. 特征降維

WHAT：將高維空間的特征通過刪減或變換轉為低維空間特征

WHY：降低時間/空間復雜度、降低提取特征開銷、降噪、提升魯棒性、增強可解釋性、便於可視化；

HOW：主要有兩種方式，即特征選擇和特征提取。

特征選擇方法主要分為三種：

Filter：過濾式；按權重排序，不涉及到學習器，排序規則一般有方差法、相關系數法、互信息法、卡方檢驗法、缺失值比例法（注意受范圍影響的方法需先歸一化）^[2.zhihu]。

方差法：計算各個特征的方差，然后根據閾值，選擇方差大於閾值的特征。可使用sklearn.feature_selection庫的VarianceThreshold類來實現。
缺失值比例法：計算各個特征的缺失值比例，將缺失值比例較大的特征過濾掉。
相關系數法：計算特征與輸出值的相關系數以及相關系數的 P值（常見的有：皮爾森相關系數用於數值特征的線性檢驗，秩相關系數用於類別特征的單調性檢驗）。
互信息法：計算定性特征與輸出值的相關性（運用了信息熵理論），決策樹學習中的信息增益等價於訓練數據集中類與特征的互信息。

Embedded：嵌入式；確定模型過程中自動完成重要特征挑選，基於懲罰項如嶺回歸(L2正則)、LASSO(L1正則)，基於樹模型如GBDT、決策樹^[3.cnblog]。
Wrapper：封裝式；用學習器的性能評判不同特征子集的效果，特征子集生成方式：完全搜索（前向&后向）、啟發式搜索、隨機搜索^[3.cnblog]。