10.pandas的替換和部分替換(replace)


在處理數據的時候,很多時候會遇到批量替換的情況,如果一個一個去修改效率過低,也容易出錯。replace()是很好的方法。

 
源數據

1、替換全部或者某一行

replace的基本結構是:df.replace(to_replace, value) 前面是需要替換的值,后面是替換后的值。

例如我們要將南岸改為城區:

 
將南岸改為城區

這樣Python就會搜索整個DataFrame並將文檔中所有的南岸替換成了城區(要注意這樣的操作並沒有改變文檔的源數據,要改變源數據需要使用inplace = True)。

 
使用inplace = True更改源數據

由於南岸只有城市一列具有相同值,使用起來比較方便。

但是如果我們要改變表1Lon里的某個數據,而不改變Longitude的數據要怎么做呢?

 
改變指定的列的數據

所以只想替換部分數據的時候並且要寫入源數據就需要指定inplace。

在上面的操作只改變了表1Lon的數據,其它列的數據並沒有被替換,而且在替換后的結果不需要我們再和源數據進行合並操作,可以直接體現在源數據中。

2、替換指定的某個或指定的多個數值(用字典的形式)

 
只改變指定的值

這個很好理解,就是字典里的建作為原值,字典里的值作為替換的新值。

當然,我們也可是使用列表的形式進行替換:df.replace(['A','29.54'],['B',100])

 
用列表的形式進行替換

還有如果想要替換的新值是一樣的話,我們還可以這樣做:

 
替換的新值一樣時

部分替換和替換某個值結合使用的話就可以替換單個列的數值:

 
替換單個列的數值

3、使用正則表達式替換

正則表達式很強大,能夠讓我們實現一次替換很多很多個不同的值:

 
源數據
 
正則表達式沒有指定regex =True
 
正則表達式指定regex =True

使用正則表達式的時候記得后面加 regex=True參數。

有圖中我們可以看到只要包含有大寫的英文字母的數據都被替換了,如果我們要寫入源數據還需要指定inpla = True。

 
指定列替換數據

當需要將缺失值替換掉的時候,我們可以考慮直接只用fillna(),功能更強大,這個前面已經有說過了。

在某些情況下,如果我們只需要某個數據的部分內容,我們該怎么操作呢?

比如要把變電站都改為transformer_substation,或者是把Latitude列的前面的ab改為AB:

 
指定列更改替換部分字符
 
指定列更改替換部分字符

需要注意的時更好指定列的時候,使用str.replace時不能使用inplace = True參數,因此需要改成賦值,賦值的時候不要忘了是列的賦值而不是整個表格的賦值。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM