python中正則表達式在中文字符串匹配時的坑

本文轉載自查看原文 2019-02-27 21:27 1814

　　之前一直有使用python 正則表達式來做中文字符串或者中英文數字混合的字符串的匹配，發現有不少情況下會匹配失靈或者結果混亂，並且在不同操作系統上匹配結果也不一致，查了很久都不知道是什么原因。今天終於徹底弄懂了，原來還是python中對中文的編碼問題造成的。

　　解決辦法：

　　　　step1 在設置默認編碼為UTF8之后，將正則表達式和待匹配字符串都decode("utf8")統一成 unicode再進行匹配；

　　　　step2 正則表達式前面一定要加 r ；

示例代碼：

        kw_regexp = r'微信'+ kw_str.decode("utf8")
        pattern = re.compile(kw_regexp, re.I)
        result = pattern.search(cont.decode("utf8"))

其中，cont是待匹配字符串，kw_regexp是拼接來的正則表達式字符串，前面一定要加"r"。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【正則表達式】 - 匹配中文字符 Python中使用中文正則表達式匹配指定的中文字符串 Python從文件中讀取字符串，用正則表達式匹配中文字符的問題 C#匹配中文字符串的4種正則表達式 Java字符串匹配正則表達式正則表達式——字符串匹配 Lua的字符串匹配與正則表達式 Python正則表達式教程：字符串匹配多個字符 Python正則表達式(2)---字符串匹配多個字符 PHP正則表達式匹配中文字符