在用re(正則表達式)模塊匹配掉文本中的括號時,總是出現各種各樣的問題,經過將近一個小時的摸索,終於找到了問題的所在。
案例:
將 txt = 'Linux系統安裝 - 1.1(Av20994127,P1).Flv' 中的(Av20994127,P1)匹配出來,再用re.sub()去掉。
初次嘗試:
import re
txt = 'Linux系統安裝 - 1.1(Av20994127,P1).Flv'
tx = re.search('.*?(\(.*?\)).Flv', txt)
re.sub(tx.group(1), '', txt)
Out[1]: 'Linux系統安裝 - 1.1().Flv' # 括號()仍在,無法去掉。
解決方案:
import re tx = re.search('.*?(\(.*?\)).Flv', txt) re.sub('\('+tx.group(1)+'\)', '', txt) # 在tx.group(1) 前后分別加上 '\(' 與 '\)‘ # 由於才疏學淺,具體原理不明,如有高人路過,還望解答。 Out[2]: 'Linux系統安裝 - 1.1.Flv' # 括號()被去掉。
進階:
當文本中只有一個括號(單括號)時,即:text = 'Linux系統安裝 - 1.1(Av20994127,P.Flv'
用相同的方法,出現 error: missing ), unterminated subpattern 的錯誤。
經摸索發現,解決方案如下:
import re
text = 'Linux系統安裝 - 1.1(Av20994127,P.Flv'
result = re.search('.*?(\(.*?,P),Flv', text)
new = re.sub('\\' + result.group(1), '', text) # 在result.group(1)前面加 ’\\‘
Out[3]: 'Linux系統安裝 - 1.1.Flv'
