機器學習:數據清洗及工具OpenRefine


  數據分析中,首先要進行數據清洗,才可以繼續訓練模型,預測等操作。

  首先介紹一下什么是數據清洗(定義來自 百度百科,有刪減)

  數據清洗從名字上也看的出就是把“臟”的“洗掉”,指發現並糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等。我們要按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據,過濾。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。

  殘缺數據:通過算法KNN,回歸,判定樹分析,填補上殘缺的數據。

  錯誤數據:主要是噪聲數據。通過聚類,回歸,分箱等手段剔除孤立點;還可以通過數據特征分布,剔除脫離分布的噪聲數據。

  重復數據:剔除相似度大於閾值的數據。

 

  下面就介紹一款數據清洗的工具OpenRefine

 

OpenRefine 下載地址:    https://github.com/OpenRefine/OpenRefine

OpenRefine 教程下載地址:    http://download.csdn.net/detail/gattaca2011/6940325

 

轉置請注明出處:http://www.cnblogs.com/rongyux/

 

后續更新中。。。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM