解決爬取網站過程中遇到的HTTP Error 302錯誤和中文亂碼問題

本文轉載自查看原文 2019-12-26 21:51 1428

今天嘗試爬取國家稅務總局網站

網址是這個： http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html

from urllib import request
base_url = "http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html"
f = request.urlopen(base_url)

用上面這段代碼，結果會報錯：

urllib.error.HTTPError: HTTP Error 302: The HTTP server returned a redirect error that would lead to an infinite loop.

找了一下原因，也沒太看懂，大概是因為沒有cookies，而網站需要cookies, 問題在這里：

https://stackoverflow.com/questions/32569934/urlopen-returning-redirect-error-for-valid-links

后來在別的地方有人說，可以用requests這個庫來抓取信息就不會，於是用了這個庫

import requests
res = requests.get("http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html")
print(res.text)

寫了上面的代碼，可以抓取了，但是又遇到一個新問題，就是抓取網頁里的中文是亂碼

然后又在網上尋找辦法，試了很多方法，但最終解決問題很簡單

import requests
res = requests.get("http://www.chinatax.gov.cn/chinatax/n810219/n810724/index.html")
res.encoding= 'utf-8'     # 指定res的編碼
print(res.text)

最終，問題解決。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy爬取某網站,模擬登陸過程中遇到的那些坑 Python+requests 爬取網站遇到中文亂碼怎么辦？ Kettle轉換過程中中文亂碼問題 SpringMVC開發過程中的中文亂碼問題記錄下安裝ES過程中遇到的錯誤及解決 hadoop過程中遇到的錯誤與解決方法 MGR搭建過程中遇到的錯誤以及解決辦法 kubernetes安裝過程中遇到問題及解決解決安裝AutoCAD2006過程中遇到的問題解決使用rollup構建ECharts過程中遇到的問題