一、數據預處理過程包括
(一)Attribute Selection(字段選擇)
- Data Integration(數據整合) 多重數據源的整合問題
• 消除數據不一致
台幣 VS. 美金
• 消除數據重復性
A及B數據表都有某會員的數據
(二)Data Cleansing(數據清洗)
- Wrong Value(錯誤值)
- Outlier(離群值)
- Missing Value(空值)
注意:數據清洗階段,最重要的第一步是數據質量報告,數據質量報告3張表牢記:第一,字段匯總情況表;第二,數值型字段情況表;第三,類別性字段情況表。
(三) Attribute Enrichment(字段擴充)
- 外部數據整合
-
內部數據的統整(Data Aggregation)
利用舊字段將其加總、統計做初步整理,使得數據更適合探勘
(四)Data Coding(數據編碼)
- Data Transformation(數據轉換)
- Data Reduction(數據精簡)
- Record Reduction(記錄精簡)
- Attribute Value Reduction(域值精簡)
- Attribute Reduction(字段精簡)