scrapy采集—爬取中文亂碼，gb2312轉為utf-8

本文轉載自查看原文 2020-02-24 14:38 1093 Scrapy(python)

有段時間沒怎么使用scrapy了，最近采集一個網頁，發現網頁編碼是gb2312,

一開始就取搜索了下，發現各種操作都有，有在settings中設置

# FEED_EXPORT_ENCODING = 'utf-8'
FEED_EXPORT_ENCODING = 'GB2312'

有在spider中設置response.body的encoding的,而我用的是response.xpath,到這里發現問題也還是不能夠解決，

最后發現在Download MinddleWares中有個process_response方法，在下載器中間件中將返回的請求數據修改編碼即可完成

response = HtmlResponse(url=response.url, body=response.body, encoding='utf-8')
return response

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 utf-8編碼的中文注釋在 sourceinsight 顯示亂碼的解決方法---utf8 轉gb2312插件 Java 字符轉碼之UTF-8轉為GBK/GB2312 Java 字符轉碼之UTF-8轉為GBK/GB2312 ASP教程:gb2312和utf-8亂碼問題解決【轉】python XML 操作總結(創建、保存和刪除，支持utf-8和gb2312) UTF-8和GB2312互轉的最簡單快捷的方法 URL編碼 utf-8 gb2312的區別 C# QRCode生成二維碼，支持中文，有utf-8和gb2312兩種方法將編碼從GB2312轉成UTF-8的方法匯總(從前台、程序、數據庫) 【轉】GB2312 編碼