特征表達
接下來要談到的特征工程類型雖然簡單卻影響巨大。我們將其稱為特征表達。
你的數據並不一定總是理想格式。你需要考慮是否有必要通過另一種形式進行特征表達以獲取有用信息。
- 日期與時間特征: 我們假設你擁有purchase_datetime特征。從中提取purchase_day_of_week與purchase_hour_of_day兩項特征可能會更有用。你還可以進行觀察聚類以創建諸如purchases_over_last_30_days這類特征。
- 數字到分類的映射: 假設你擁有years_in_school特征。你可以基於它創建新的grade特征,並分類為“小學”、“初中”和“高中”。
- 稀疏類分組:假設你擁有一個包含多個類別的特征,但樣本量較小。你可以嘗試對相似類進行分組,將相似的類別分到一組,然后將剩下的類划分至單一的“其他”類中。
- 創建虛擬變量 根據你所選取的機器學習實現方法,你可能需要手動地將各分類特征轉化為虛擬變量。請務必在稀疏類分組之后再創建虛擬變量。
見:http://www.infoq.com/cn/news/2017/08/Analysis-practices-Feature-Engin