打开网站URL遇到“HTTP Error 418：”问题

本文转载自查看原文 2020-02-05 15:04 9482 python笔记

问题：urllib.error.HTTPError: HTTP Error 418:

程序：

import urllib.request

response=urllib.request.urlopen('https://movie.douban.com/')
html=response.read().decode('utf8')
print(html)

运行程序读取网页时显示：

“HTTP Error 418:”应该是网站的反爬程序返回的。

在使用浏览器访问网站时，访问请求中包含请求头。检测请求头是常见的反爬虫策略。

服务器通过检测请求头判断这次请求是不是人为的。

在程序上加入请求头，这样服务器就会认为这是一个从浏览器发出的人为请求：

import urllib.request

url='https://movie.douban.com/'
#请求头
herders={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1;WOW64) AppleWebKit/537.36 (KHTML,like GeCKO) Chrome/45.0.2454.85 Safari/537.36 115Broswer/6.0.3',
    'Referer':'https://movie.douban.com/',
    'Connection':'keep-alive'}
req=urllib.request.Request(url,headers=herders)
response=urllib.request.urlopen(req)
html=response.read().decode('utf8')
print(html)

返回正确结果。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python打开网站 selenium的打开网站 Android调用浏览器打开网址遇到的问题解决爬取网站过程中遇到的HTTP Error 302错误和中文乱码问题 php打开网站报SQLSTATE[42000]: Syntax error or access violation: 1055错误 chrome 默认以 https打开网站爬虫遇到HTTP Error 403的问题使用nginx代理gogs遇到推送代码错误的问题(RPC failed; HTTP 413 curl 22 The requested URL returned error: 413) python爬取网页时返回http状态码HTTP Error 418 python爬取网页时返回http状态码HTTP Error 418