Python正則表達式 re.sub()函數：標志位flags與參數個數問題

本文轉載自查看原文 2020-10-02 16:54 1114 爬蟲/ 正則表達式/ Python

這兩天在寫爬蟲程序，涉及英文文本處理，需要規范化英文標點符號的寫法。正常情況下，英文句號「.」后面需要保證有且只有一個空格，但也有例外情況，比如「i.e.」、「e.g.」、「P.S.」這種。由於無法預測大小寫，因此在正則表達式中使用了「標志位」flags，卻死活不生效。

一開始，我的函數是這樣寫的：

1 def punctuate(s):
2     #----其余代碼暫略
3     s = re.sub(' e. g. ', 'e.g.', s, re.I)
4     return s

代碼的本意是：本來好好的「e.g.」，被函數前半斷的代碼錯改成「e. g. 」之后，需要修復一下，將英文句號「.」后面的空格刪掉。但這行 re.sub() 代碼主要有2個問題：

「e. g.」前后不一定是空格，因此這樣寫的話，如果遇到「e. g.,」或是「(e. g. xxx」的情況就會被跳過。
英文的句號「.」未轉義
標志位 re.I 不生效

前2個問題好解決。改進代碼如下：

1 def punctuate(s):
2     #----其余代碼暫略
3     s = re.sub('([^a-zA-Z]e\.) (g\.[^a-zA-Z])', '\g<1>\g<2>', s, re.I)
4     return s

規則是：「e. g.」之前或之后，必須有「非英文字母」的字符（包括空格），且「e.」和「g.」中間有一個空格，則將中間的空格刪掉，且保留前后的「非英文字母」（\g<1>表示查找到的第1個括號內的文本，\g<2>表示第2個括號）。但標志位 re.I 的問題還是沒解決。

后來翻到了「Python--詳解Python中re.sub」這篇文章，才頓悟：re.sub() 函數有5個參數，我傳入了4個參數，最后一個被認為是第4個參數，而不是第5個！多么低級的錯誤啊！

查閱「Python官方文檔」可知，

re.sub(pattern, repl, string, count=0, flags=0)

我傳入的第4個參數 re.I 會被當作是 count。因此，正確的姿勢是明確寫明「flags=re.I」。

整個標點符號規范化函數還包括其它的替換，完整代碼如下：

 1 def punctuate(s):
 2     s = re.sub('([,:;?!\.”\)])', '\g<1> ', s) #后加空格
 3     s = re.sub('([“\(])', ' \g<1>', s) #前加空格
 4     s = re.sub('([“\(]) ', '\g<1>', s) #后刪空格
 5     s = re.sub(' ([,:;?!\.”\)])', '\g<1>', s) #前刪空格
 6     s = re.sub('([,\.?!;\)]) ”', '\g<1>”', s) #閉引號前去空格
 7     s = re.sub('\) ([,:;?!\.”])', ')\g<1>', s) #閉括號后去空格
 8     s = re.sub('(\d)\. (\d)', '\g<1>.\g<2>', s) #小數點后去空格
 9     s = re.sub(' +', ' ', s) #多空格改單空格
10     #拉丁加點縮寫單詞，點號后面去空格
11     s = re.sub('([^a-zA-Z]e\.) (g\.[^a-zA-Z])', '\g<1>\g<2>', s, flags=re.I)
12     s = re.sub('([^a-zA-Z]i\.) (e\.[^a-zA-Z])', '\g<1>\g<2>', s, flags=re.I)
13     s = re.sub('([^a-zA-Z]q\.) (v\.[^a-zA-Z])', '\g<1>\g<2>', s, flags=re.I)
14     s = re.sub('([^a-zA-Z]v\.) (s\.[^a-zA-Z])', '\g<1>\g<2>', s, flags=re.I)
15     s = re.sub('([^a-zA-Z]n\.) (b\.[^a-zA-Z])', '\g<1>\g<2>', s, flags=re.I)
16     s = re.sub('([^a-zA-Z]p\.) (s\.[^a-zA-Z])', '\g<1>\g<2>', s, flags=re.I)
17     s = re.sub('\. ,', '.,', s)
18     return s

多么痛的領悟！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 正則表達式 re.sub & re.subn 正則表達式 - re.sub() 替換 python 正則表達式 re.sub & re.subn python正則表達式模塊re：正則表達式常用字符、常用可選標志位、group與groups、match、search、sub、split,findall、compile、特殊字符轉義 Python 正則表達式之 sub 和 subn函數的使用 python re 正則表達式 python re正則表達式正則表達式整理(\w \s \d 點貪婪匹配非貪婪匹配 * + ? {} | [] ^ $ \b 單詞邊界分組、re.findall()、re.split()、re.search()、re.match()、re.compile()、re.sub()) Python re.sub函數 python 正則函數 re.sub 替換不完全的問題以及解決方法