一、概況
1、數據清洗到底是在清洗些什么?
通常來說,你所獲取到的原始數據不能直接用來分析,因為它們會有各種各樣的問題,如包含無效信息,列名不規范、格式不一致,存在重復值,缺失值,異常值等.....
二、使用庫介紹
1、Pandas
Python的一個數據分析包,被作為金融數據分析工具,為時間序列分析提供了很好的支持
2、NumPy
Python的一種開源的數值計算擴展,可用來存儲和處理大型矩陣matrix,比Python自身的嵌套列表結構要高效的多,提供了許多高級的數值編程工具,如:矩陣數據類型、矢量處理,以及精密的運算庫,專為進行嚴格的數字處理而產生。
步驟:
一、了解數據
二、清洗數據
去除不需要的行、列
重新命名列
重新設置索引
用字符串操作規范列
用函數規范列
刪除重復數據
填充缺失值
三、總結