(三)數據預處理過程簡介


一、數據預處理過程包括

(一)Attribute Selection(字段選擇)

  • Data Integration(數據整合)  多重數據源的整合問題

 

• 消除數據不一致
  台幣 VS. 美金
• 消除數據重復性  
  A及B數據表都有某會員的數據

 

(二)Data Cleansing(數據清洗)

  •  Wrong Value(錯誤值)
  •  Outlier(離群值)
  •  Missing Value(空值)

  注意:數據清洗階段,最重要的第一步是數據質量報告,數據質量報告3張表牢記:第一,字段匯總情況表;第二,數值型字段情況表;第三,類別性字段情況表。

  

 

(三) Attribute Enrichment(字段擴充)

  • 外部數據整合
  • 內部數據的統整(Data Aggregation)
       利用舊字段將其加總、統計做初步整理,使得數據更適合探勘

(四)Data Coding(數據編碼)

  • Data Transformation(數據轉換)
  • Data Reduction(數據精簡)
  1. Record Reduction(記錄精簡)
  2. Attribute Value Reduction(域值精簡)
  3. Attribute Reduction(字段精簡)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM