數據預處理的一般流程


1.去除唯一屬性

類似於身份證信息,編號這類的屬性,對數據分析無實際意義作用,在數據預處理的過程中我們將其刪除。

 

2.缺失值填補

(1)均值填補:使用屬性的平均值進行填補。

(2)同類均值填補:將樣本進行分類,然后將缺失值所在類的屬性均值拿來進行填補。

(3)眾數填補:屬性值出現最多的拿來填補。

(4)建模預測:將缺失的屬性拿來作為預測的目標,將數據集按照是否含有特定屬性的缺失值分為兩類,利用模型預測值進行填補。

(5)高維映射

(6)多重差補

 

3.特征二值化

將數值型的屬性按照閾值轉換為布爾值的屬性。用戶根據具體問題設定一個閾值作為分割點,將屬性值划分為0和1兩種。

 

4.特征編碼


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM