解决爬取网站过程中遇到的HTTP Error 302错误和中文乱码问题

本文转载自查看原文 2019-12-26 21:51 1428

今天尝试爬取国家税务总局网站

网址是这个： http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html

from urllib import request
base_url = "http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html"
f = request.urlopen(base_url)

用上面这段代码，结果会报错：

urllib.error.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.

找了一下原因，也没太看懂，大概是因为没有cookies，而网站需要cookies, 问题在这里：

https://stackoverflow.com/questions/32569934/urlopen-returning-redirect-error-for-valid-links

后来在别的地方有人说，可以用requests这个库来抓取信息就不会，于是用了这个库

import requests
res = requests.get("http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html")
print(res.text)

写了上面的代码，可以抓取了，但是又遇到一个新问题，就是抓取网页里的中文是乱码

然后又在网上寻找办法，试了很多方法，但最终解决问题很简单

import requests
res = requests.get("http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html")
res.encoding= 'utf-8'     # 指定res的编码
print(res.text)

最终，问题解决。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 scrapy爬取某网站,模拟登陆过程中遇到的那些坑 Python+requests 爬取网站遇到中文乱码怎么办？ Kettle转换过程中中文乱码问题 SpringMVC开发过程中的中文乱码问题记录下安装ES过程中遇到的错误及解决 hadoop过程中遇到的错误与解决方法 MGR搭建过程中遇到的错误以及解决办法 kubernetes安装过程中遇到问题及解决解决安装AutoCAD2006过程中遇到的问题解决使用rollup构建ECharts过程中遇到的问题