數據分析中,首先要進行數據清洗,才可以繼續訓練模型,預測等操作。
首先介紹一下什么是數據清洗(定義來自 百度百科,有刪減)
數據清洗從名字上也看的出就是把“臟”的“洗掉”,指發現並糾正數據文件中可識別的錯誤的最后一道程序,包括檢查數據一致性,處理無效值和缺失值等。我們要按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據,過濾。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。
殘缺數據:通過算法KNN,回歸,判定樹分析,填補上殘缺的數據。
錯誤數據:主要是噪聲數據。通過聚類,回歸,分箱等手段剔除孤立點;還可以通過數據特征分布,剔除脫離分布的噪聲數據。
重復數據:剔除相似度大於閾值的數據。
下面就介紹一款數據清洗的工具OpenRefine
OpenRefine 下載地址: https://github.com/OpenRefine/OpenRefine
OpenRefine 教程下載地址: http://download.csdn.net/detail/gattaca2011/6940325
轉置請注明出處:http://www.cnblogs.com/rongyux/
后續更新中。。。