1.去除唯一屬性
類似於身份證信息,編號這類的屬性,對數據分析無實際意義作用,在數據預處理的過程中我們將其刪除。
2.缺失值填補
(1)均值填補:使用屬性的平均值進行填補。
(2)同類均值填補:將樣本進行分類,然后將缺失值所在類的屬性均值拿來進行填補。
(3)眾數填補:屬性值出現最多的拿來填補。
(4)建模預測:將缺失的屬性拿來作為預測的目標,將數據集按照是否含有特定屬性的缺失值分為兩類,利用模型預測值進行填補。
(5)高維映射
(6)多重差補
3.特征二值化
將數值型的屬性按照閾值轉換為布爾值的屬性。用戶根據具體問題設定一個閾值作為分割點,將屬性值划分為0和1兩種。
4.特征編碼