python庫--pandas--Series.str--字符串處理


python內置字符串處理方法

S: Series  I: Index

方法 返回值 參數 說明
.capitalize() S/I   將Series/Index中的字符串大寫
.cat() S/I/str  使用給定分隔符連接字符串
other=None  None: 使用sep連接給定的Series返回一個str
List_like: 與Series對應位置的字符串用sep連接返回一個S
sep=None 分隔符
na_rep=None 遇到NA值忽略或使用指定字符替換
.center() S 在字符串兩端填充指定字符到指定長度
width 填充后的字符串長度
fillchar=' ' 用於填充的字符串
.contains() S[bool] 判斷指定字符串或正則表達式是否在序列或索引中
pat 字符串或正則表達式
case=True 是否區分大小寫
flags=0 可傳入re.IGNORECASE之類的參數
na=nan 缺失值填充
regex=True 是否使用正則表達式匹配
.count() S[int] 統計指定字符串在序列字符串中出現的次數
pat 字符串或正則表達式
flags=0 可傳入re.IGNORECASE之類的參數
.decode() S[str] 解碼
encoding 解碼方式
errors='static' error處理方式
.encode() S[b''] 編碼
encoding 編碼方式
error='static' error處理方式
.endswith() S[bool] 判斷是否以給定的字符串結尾
pat 字符串
na=nan 缺失值填充
.extract()   使用正則表達式提取需要的內容(只匹配一次)
pat 正則表達式(必須含有捕獲組, 超過一個必然返回DataFrame)
flags=0 可傳入re.IGNORECASE之類的參數
expand=None True: 返回DataFrame(未來版本默認值)
False: 返回S/I/DataFrame(現在版本默認值)
.extractall() df 獲取所有的正則表達式匹配到的內容(以多級索引的方式展示)
pat 含捕獲組的正則表達式, 若捕獲組設有name則將作為返回的列標簽
flags=0 可傳入re.IGNORECASE之類的參數
.find() S 查找sub在序列字符串的子字符串中出現的位置, 找不到返回-1
sub 字符串
start=0 子字符串開始的位置
end=None 子字符串結束的位置
.findall() S[list] 相當於對序列中每個字符串執行 re.findall(pat, string)
pat 正則表達式
flags=0 可傳入re.IGNORECASE之類的參數
.get() S i 獲取指定位置的字符, 超出長度則返回Na
.index() S 同.find() 不過找不到將引發Error
.join() S sep 給每個字符串的字符間插入指定字符
.len() S 返回每個字符串的長度
.ljust() S 同 .center() 不過只在右側填充
.lower() S 所有字符小寫
.lstrip() S to_strip=None 去除左側指定字符, 默認去掉空白符
.match() S[bool] 判斷字符串與正則表達式是否匹配, 即正則表達式能否匹配到內容
pat 字符串或正則表達式
case=True 是否區分大小寫
flags=0 可傳入re.IGNORECASE之類的參數
na=nan 缺失值填充
as_indexer=None 棄用
.normalize() S from 返回字符串的Unicode標准格式
.pad() S 在序列字符串左側/右側/兩側填充指定字符串到指定長度
width 將字符串填充到的長度
side='left' 'left': 在左側填充
'right': 在右側填充
'both': 在兩側填充, 原字符串居中
fillchar=' ' 填充的字符
.partition()   第一次出現pat時將字符串分割為三個部分: pat前面的部分, pat本身, pat后面的部分
pat=' ' 字符串
expand=True True: 返回DataFrame/Multilndex
False: 返回Series/Index, 元素為Tuple
.repeat()   將字符串擴展n倍, 比如 'a' 擴展 2 倍為 'aa'
repeats int: 序列中所有字符串擴展相同倍數
list_like: 長度需和序列長度一致, 對應每個元素擴展對應倍數
.replace() S 更新字符串
pat 字符串或編譯的正則表達式
repl str: 將匹配到的字符串替換為此字符串
fun: 傳給fun的是對象相當於re.search(pat, string)的返回值
n=-1 替換的次數, 默認全部
case=None 是否區分大小寫, 如果pat為字符串則默認為True, 若為編譯的正則表達式則不能設置
flags=0 可傳入re.IGNORECASE之類的參數, 但若pat為編譯的正則表達式則不能設置
.rfind()   同 .find() 不過從右往左檢索
.rindex()   同 .index() 不過從右往左檢索
.rjust()   同 .center() 不過只在左側填充
.rpartition()   同.partition(), 不過從右往左檢索pat字符串
.rstrip() S to_strip=None 去除右側指定字符, 默認去掉空白符
.slice() S 截取子字符串
start=None 開始位置
stop=None 結束位置
step=None 步長
.slice_replace() S 截取子字符串, 並將截取部分替換為repl
start=None 開始位置
stop=None 結束位置
repl=None 要替換為的字符串
.split()   對字符串按照給定字符進行分割
pat=None 分隔符, 默認空白符
n=-1 分割次數, 默認全部
expand=False True: 返回DataFrame/MultiINdex
False: 返回Series/Index
.rsplit()   同.split() 不過從右側開始分割
.startswith() S[bool] 判斷序列字符串是否以指定字符串開頭
pat 字符串
na=nan 缺失值填充
.strip() S to_strip=None 去除兩側指定字符, 默認去掉空白符
.swapcase() S 將小寫字符大寫, 將大寫字符小寫
.title() S 將首字母大寫, 其余字符小寫
.translate()   參考python內置字符串處理方法 .translate()
.upper() S 全部大寫
.wrap() S width 在指定位置插入換行符
.zfill() S width 在字符串前面填充0到指定長度
.isalnum() S[bool] 字符串至少包含一個字符且所有字符都是字母(漢字)或數字則返回True
.isalpha() S[bool] 字符串至少包含一個字符且所有字符都是字母(漢字)則返回True
.isdigit() S[bool] 只包含數字(可以是: Unicode, 全角字符, bytes(b'1'), 羅馬數字)
.isspace() S[bool] 只包含空白符
.islower() S[bool] 至少包含一個小寫字符, 且不包含大寫字符
.isupper() S[bool] 至少包含一個大寫字符, 且不包含小寫字符
.istitle() S[bool] 所有單詞大寫開頭其余小寫(標題化)
.isnumeric() S[bool] 只包含數字字符
.isdecimal() S[bool] 只包含數字(Unicode字符, 全角字符)
.get_dummies() df sep='|' 把字符串按照指定分隔符分割, 並返回分割后的字符串出現的次數


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM