【Python】python3 正則爬取網頁輸出中文亂碼解決

本文轉載自查看原文 2017-12-03 19:23 1957 Python

爬取網頁時候print輸出的時候有中文輸出亂碼

例如：

\\xe4\\xb8\\xad\\xe5\\x8d\\x8e\\xe4\\xb9\\xa6\\xe5\\xb1\\x80

#爬取https://read.douban.com/provider/all出版社
pattern='<div class="name">(.*?)</div>'
import urllib.request
data = urllib.request.urlopen("https://read.douban.com/provider/all").read()
result = re.compile(pattern).findall(str(data))

print(result)

百度了使用encode 和decode 使用codecs都不好使。

應該在爬取網頁read()的時候就修改編碼格式

#爬取https://read.douban.com/provider/all出版社
pattern='<div class="name">(.*?)</div>'
import urllib.request
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("UTF-8")
result = re.compile(pattern).findall(str(data))
print(result)

還有一些中文亂碼的處理在這兒可能詳細點兒，也是這給我啟發讓我搞定這個亂碼。https://www.cnblogs.com/lmei/p/5333644.html

----------------------------------------------------------分割線-----------------------------------------------

直接 data = urllib.request.urlopen(url).read().decode("utf-8","ignore")

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 解決python3爬取網頁（GB2312編碼）中文亂碼問題 python3：爬取的內容包含中文，輸出后亂碼的問題 python3 輸出中文、日文等等亂碼問題的解決辦法 python爬取html中文亂碼 python用beautifulsoup爬取網頁時出現亂碼的解決方法 python3爬取網頁圖片路徑並寫入文件 python3爬取網頁中的郵箱地址 Python3批量爬取網頁圖片 python爬蟲學習（四）：爬取網頁圖片-正則解析數據 Python爬取中文頁面的時候出現的亂碼問題