數據處理的基本流程


                      數據清洗  

  對於缺失值的處理,我們分為3類:刪除數據,數據插補,不處理.數據的插值是取前后相鄰幾個數據的平均值作為插值,有拉格朗日插值法,牛頓插值法等.

 

               數據規范化

  數據規范化對於基於距離的挖掘算法很重要,將數據映射到0-1之間,或者-1-1之間.主要的方法有:最小-最大規范化,零-均值規范化,小數定標規范化

 

            連續屬性離散化

  對於一些分類算法,如ID3算法和Apriori算法等,要求數據是分類形式.常用的方法有:等款法,等頻法,基於聚類分析的方法(K-means).

 

             屬性構造

  為了提取更有用的數據,提高挖掘的精度,需要再已有的數據集構造出新的屬性特征,例如偷電漏電模型中構造出的線損率屬性特征.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM