python3爬虫.2.伪装浏览器

本文转载自查看原文 2018-04-22 14:47 1186 python3/ 爬虫/ python

有的网页在爬取时候会报错返回

urllib.error.HTTPError: HTTP Error 403: Forbidden

这是网址在检测连接对象，所以需要伪装浏览器，设置User Agent

在浏览器打开网页 ---> F12 ---> Network ---> 刷新

然后选择一项就是在 header 看到 User-Agent

User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36

import urllib.request                   #url包

def openUrl(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
        'Host': 'jandan.net'
    }
    req = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(req)      #请求
    html = response.read()                      #获取
    html = html.decode("utf-8")                 #解码
    print(html)                                 #打印
    
if __name__ == "__main__":
    url = "http://jandan.net/ooxx/" #'http://www.douban.com/'
    openUrl(url)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python 分别用python2和python3伪装浏览器爬取网页内容 python3读取chrome浏览器cookies python3用pyqt5开发简易浏览器 Python爬虫使用浏览器的cookies：browsercookie python爬虫 -- 浏览器的抓包编码可以绝对信任吗 python爬虫模拟浏览器访问-User-Agent docker+python无头浏览器爬虫 python爬虫:使用Selenium模拟浏览器行为 Python爬虫常用之登录(二) 浏览器模拟登录 Python爬虫之selenium爬虫，模拟浏览器爬取天猫信息