利用Python進行數據分析(10) pandas基礎: 處理缺失數據


 
數據不完整在數據分析的過程中很常見。
pandas使用浮點值NaN表示浮點和非浮點數組里的缺失數據。
pandas使用isnull()和notnull()函數來判斷缺失情況。

對於缺失數據一般處理方法為濾掉或者填充

濾除缺失數據
 
對於一個Series,dropna()函數返回一個包含非空數據和索引值的Series,例如:

對於DataFrame,dropna()函數同樣會丟掉所有含有空元素的數據,例如:
 
但是可以指定how='all',這表示只有行里的數據全部為空時才丟棄,例如:
 
如果想以同樣的方式按列丟棄,可以傳入axis=1,例如:
 
 
填充缺失數據

如果不想丟掉缺失的數據而是想用默認值填充這些空洞,可以使用fillna()函數:
 
如果不想只以某個標量填充,可以傳入一個字典,對不同的列填充不同的值:



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM