機器學習：數據清洗及工具OpenRefine

本文轉載自查看原文 2016-04-11 14:28 8338 機器學習

　　數據分析中，首先要進行數據清洗，才可以繼續訓練模型，預測等操作。

　　首先介紹一下什么是數據清洗（定義來自百度百科，有刪減）

　　數據清洗從名字上也看的出就是把“臟”的“洗掉”，指發現並糾正數據文件中可識別的錯誤的最后一道程序，包括檢查數據一致性，處理無效值和缺失值等。我們要按照一定的規則把“臟數據”“洗掉”，這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據，過濾。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。

　　殘缺數據：通過算法KNN,回歸，判定樹分析，填補上殘缺的數據。

　　錯誤數據：主要是噪聲數據。通過聚類，回歸，分箱等手段剔除孤立點；還可以通過數據特征分布，剔除脫離分布的噪聲數據。

　　重復數據：剔除相似度大於閾值的數據。

　　下面就介紹一款數據清洗的工具OpenRefine

OpenRefine 下載地址：　　https://github.com/OpenRefine/OpenRefine

OpenRefine 教程下載地址：　　 http://download.csdn.net/detail/gattaca2011/6940325

轉置請注明出處：http://www.cnblogs.com/rongyux/

后續更新中。。。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習-數據清洗機器學習中數據清洗&預處理機器學習——數據清洗和特征選擇機器學習之數據清洗與特征提取機器學習基礎與實踐（一）----數據清洗機器學習中的數據清洗與特征工程機器學習：數據清洗和特征選擇機器學習實戰_1_01_數據清洗、隨機森林模型訓練 ETL數據清洗工具總結數據清洗