數據不完整在數據分析的過程中很常見。
pandas使用浮點值NaN表示浮點和非浮點數組里的缺失數據。
pandas使用isnull()和notnull()函數來判斷缺失情況。
對於缺失數據一般處理方法為濾掉或者填充。
濾除缺失數據
對於一個Series,dropna()函數返回一個包含非空數據和索引值的Series,例如:
對於DataFrame,dropna()函數同樣會丟掉所有含有空元素的數據,例如:
但是可以指定how='all',這表示只有行里的數據全部為空時才丟棄,例如:
如果想以同樣的方式按列丟棄,可以傳入axis=1,例如:
填充缺失數據
如果不想丟掉缺失的數據而是想用默認值填充這些空洞,可以使用fillna()函數:
如果不想只以某個標量填充,可以傳入一個字典,對不同的列填充不同的值:
