解決python3爬取網頁（GB2312編碼）中文亂碼問題

本文轉載自查看原文 2018-11-07 10:42 3576 Python

　　爬取網頁時由於編碼格式的問題，導致中文亂碼，解決方法就是將原文件轉碼成latin1編碼（使用encode函數），再解碼成gbk編碼（使用decode函數）

即可輸出正確中文。

　　如下：

 1 # coding:UTF-8
 2 
 3 import requests
 4 
 5 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
 6          'Host':'www.dy2018.com'}
 7 
 8 url=('https://www.dy2018.com/1/')
 9  
10 r = requests.get(url,headers=headers)
11 
12 data = r.text.encode("latin1").decode("gbk")  ###將原文件轉碼成latin1編碼（使用encode函數） ，再解碼成gbk編碼（使用decode函數） 13 
14 with open('t1.txt','w',encoding='utf-8') as f:
15     f.write(data)
16     f.close

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【UWP】解析GB2312、GBK編碼網頁亂碼問題 node爬蟲解決網頁編碼為gb2312結果為亂碼的方法 Python 抓取網頁gb2312亂碼問題 python GB2312亂碼問題 scrapy采集—爬取中文亂碼，gb2312轉為utf-8 【已解決】python中文字符亂碼（GB2312，GBK，GB18030相關的問題） GB2312、GBK和UTF-8三種編碼以及QT中文顯示亂碼問題 Apache 2.4 編碼GB2312中文亂碼的問題 nodejs下request模塊中文gb2312亂碼問題 iconv 解決utf-8和gb2312編碼轉換問題