數據轉換指的是對數據的過濾、清理以及其他的轉換操作。
移除重復數據
DataFrame里經常會出現重復行,DataFrame提供一個duplicated()方法檢測各行是否重復,另一個drop_duplicates()方法用於丟棄重復行:
duplicated()和drop_duplicates()方法默認
判斷全部列,如果不想這樣,傳入列的集合作為參數可以指定按列判斷,例如:
duplicated()和drop_duplicates()方法
默認保留第一個出現的值,傳入take_last=True保留最后一個值:
利用映射進行數據轉換
使用函數也能達到同樣的效果:
替換值
replace()方法用於替換:
一次替換多個值:
對不同的值進行不同的替換:
DataFrame重命名軸索引
重命名列:
重命名索引:
將數據划分成不同的組:
檢測和過濾異常值
假設你有一組數據:
找出絕對值大於2的值:
找出絕對值大於2的行:
將異常值設置為0:
