如何用Python中自帶的Pandas和NumPy庫進行數據清洗


一、概況

1、數據清洗到底是在清洗些什么?

通常來說,你所獲取到的原始數據不能直接用來分析,因為它們會有各種各樣的問題,如包含無效信息,列名不規范、格式不一致,存在重復值,缺失值,異常值等.....

二、使用庫介紹

1、Pandas

Python的一個數據分析包,被作為金融數據分析工具,為時間序列分析提供了很好的支持

2、NumPy

Python的一種開源的數值計算擴展,可用來存儲和處理大型矩陣matrix,比Python自身的嵌套列表結構要高效的多,提供了許多高級的數值編程工具,如:矩陣數據類型、矢量處理,以及精密的運算庫,專為進行嚴格的數字處理而產生。

 

步驟:

一、了解數據

 

二、清洗數據

 

去除不需要的行、列

重新命名列

重新設置索引

用字符串操作規范列

用函數規范列

刪除重復數據

填充缺失值

 

三、總結


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM