書上的表達:假設你只想保留包含一定數量的觀察值的行,可以使用thresh參數來表示。
嗯嗯嗯....有些模棱兩可。摸索了一番,終於理解了。
格式:df.dropna ( thresh=n )
簡單的理解:這一行除去NA值,剩余數值的數量大於等於n,便顯示這一行。
1.先創建數組,代碼如下:
1 import numpy as np 2 from numpy import nan as NA 3
4 import pandas as pd 5 from pandas import Series,DataFrame 6
7 df = pd.DataFrame (np.random .randn(8,7)) 8
9 df.iloc[0,:] = NA 10 df.iloc[1,:6] = NA 11 df.iloc[2,:5] = NA 12 df.iloc[3,:4] = NA 13 df.iloc[4,:3] = NA 14 df.iloc[5,:2] = NA 15 df.iloc[6,0] = NA
輸出顯示:(最左邊一列是索引)
2.驗證:
(1)n=1,即剔除NA值,這些行剩余的數值數量大於等於1
df.dropna(thresh=1)
輸出顯示:索引號為[0]的第1行被剔除
(2)n=3,即剔除NA值,這些行剩余的數值數量大於等於3
df.dropna(thresh=3)
輸出顯示:索引號為[0]至[2]的前3行被剔除
(3)n=6,即剔除NA值,這些行剩余的數值數量大於等於6
df.dropna(thresh=6)
輸出顯示:索引號為[0]至[5]的前6行被剔除