python提取url中的所有中文字符

本文轉載自查看原文 2020-01-21 00:37 801

以“冠心病”百科首頁為例：

復制url后，由於我們沒有進行任何處理，此時javascript請求URL並傳參數存在中文時，對URL的中文參數進行編碼是按照瀏覽器機制進行編碼的，此時編碼存在亂碼問題。

# -*- coding: UTF-8 -*-
import re
from urllib.request import quote, unquote


# 冠心病百科url
url = 'https://baike.baidu.com/item/%E5%86%A0%E7%8A%B6%E5%8A%A8%E8%84%89%E7%B2%A5%E6%A0%B7%E7%A1%AC%E5%8C%96%E6%80%A7%E' \
      '5%BF%83%E8%84%8F%E7%97%85/2252719?fromtitle=%E5%86%A0%E5%BF%83%E7%97%85&fromid=547914&fr=aladdin'
h = unquote(url, encoding='utf-8')  # 解碼，將url中轉碼的中文字符解碼
pattern = re.compile("[^\u4e00-\u9fa5]")  # 模式匹配所有中文字符
m = re.sub(pattern, '', h)  # 將模式外的所有字符用空代替，即非中文字符
print(m)

運行結果：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python中怎么識別中文字符？如何用正則提取中文字符 python2中打印列表與字典內的中文字符 Python中的解決中文字符編碼的問題 Python中的解決中文字符編碼的問題 Python: 在CSV文件中寫入中文字符 python 中帶有中文字符的字典打印log Python 中文字符的輸出 python匹配某個中文字符 python 中文字符的處理