以“冠心病”百科首頁為例:

復制url后,由於我們沒有進行任何處理,此時javascript請求URL並傳參數存在中文時,對URL的中文參數進行編碼是按照瀏覽器機制進行編碼的,此時編碼存在亂碼問題。
# -*- coding: UTF-8 -*- import re from urllib.request import quote, unquote # 冠心病百科url url = 'https://baike.baidu.com/item/%E5%86%A0%E7%8A%B6%E5%8A%A8%E8%84%89%E7%B2%A5%E6%A0%B7%E7%A1%AC%E5%8C%96%E6%80%A7%E' \ '5%BF%83%E8%84%8F%E7%97%85/2252719?fromtitle=%E5%86%A0%E5%BF%83%E7%97%85&fromid=547914&fr=aladdin' h = unquote(url, encoding='utf-8') # 解碼,將url中轉碼的中文字符解碼 pattern = re.compile("[^\u4e00-\u9fa5]") # 模式匹配所有中文字符 m = re.sub(pattern, '', h) # 將模式外的所有字符用空代替,即非中文字符 print(m)
運行結果:

