python re模塊findall()詳解


今天寫代碼,在寫到鄭澤的時候遇到了一個坑,這個坑是re模塊下的findall()函數。

下面我將結合代碼,記錄一下

import re

string="abcdefg  acbdgef  abcdgfe  cadbgfe"

#帶括號與不帶括號的區別
#不帶括號
regex=re.compile("((\w+)\s+\w+)")
print(regex.findall(string))
#輸出:[('abcdefg  acbdgef', 'abcdefg'), ('abcdgfe  cadbgfe', 'abcdgfe')]

regex1=re.compile("(\w+)\s+\w+")
print(regex1.findall(string))
#輸出:['abcdefg', 'abcdgfe']

regex2=re.compile("\w+\s+\w+")
print(regex2.findall(string))
#輸出:['abcdefg  acbdgef', 'abcdgfe  cadbgfe']

第一個 regex 中是帶有2個括號的,我們可以看到其輸出是一個list 中包含2個 tuple 

第二個 regex 中帶有1個括號,其輸出的內容就是括號匹配到的內容,而不是整個表達式所匹配到的結果。

第三個 regex 中不帶有括號,其輸出的內容就是整個表達式所匹配到的內容。

 

結論:findall()返回的是括號所匹配到的結果(如regex1),多個括號就會返回多個括號分別匹配到的結果(如regex),如果沒有括號就返回就返回整條語句所匹配到的結果(如regex2)。所以在提取數據的時候就需要注意這個坑。

   實際上是由其並不是python特有的,這是 正則 所特有的 , 任何一門高級語言使用正則都滿足這個特點:有括號時只能匹配到括號中的內容,沒有括號【相當於在最外層增加了一個括號】。在正則里面 “()” 代表的是分組的意思,一個括號代表一個分組,你只能匹配到"()"中的內容

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM