Outline
處理數據時,遇到文件中包含一些不需要的數據(行),需要把這些不符合要求的行給刪除掉。
例如:該數據中應該都是2000年的數據,但是包含了一些2001年的數據,所以需要把2001年的數據給刪除掉。
篩選出指定行
找到所有包含2000年的數據:
source_df[(source_df['date'].map(lambda d: d.split('/')[0])).isin([‘2000’])] # source_df 為讀取的csv文件對象
根據pandas中取反操作:”~“, 取出所有不包含2000年的數據:
source_df[~(source_df['date'].map(lambda d: d.split('/')[0])).isin([year])]
刪除不合法數據
source_df.drop(source_df[~(source_df['date'].map(lambda d:d.split('/')[0])).isin([year])].index) # 根據 drop和index 刪除包含2001的數據
刪除后DataFrame中就只包含2000年的數據