Requests爬取网页的编码问题

import requests
from requests import exceptions
    def getHtml():
        try:
            r=requests.get('http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html')
            r.raise_for_status()
            r.encoding=r.apparent_encoding
            return r.text
        except requests.RequestException as e:
            return ''

其中 r.encoding 根据响应头中的 charset 判断网站编码，如果没有设置则默认返回 iso-8859-1 编码，而r.apparent_encoding
则通过网页内容来判断其编码。令r.encoding=r.apparent_encoding就不会出现乱码问题。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python爬取网页编码问题 Python使用requests爬取一个网页并保存 python3 requests爬取gbk时候遇到编码的坑 requests模块爬取会对默认的url进行编码 python的requests模块爬取网页内容解决python3爬取网页（GB2312编码）中文乱码问题 python requests库网页爬取小实例：亚马逊商品页面的爬取网页源码爬取网页源码爬取爬取静态网页