python3爬蟲.2.偽裝瀏覽器

本文轉載自查看原文 2018-04-22 14:47 1186 python3/ 爬蟲/ python

有的網頁在爬取時候會報錯返回

urllib.error.HTTPError: HTTP Error 403: Forbidden

這是網址在檢測連接對象，所以需要偽裝瀏覽器，設置User Agent

在瀏覽器打開網頁 ---> F12 ---> Network ---> 刷新

然后選擇一項就是在 header 看到 User-Agent

User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36

import urllib.request                   #url包

def openUrl(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
        'Host': 'jandan.net'
    }
    req = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(req)      #請求
    html = response.read()                      #獲取
    html = html.decode("utf-8")                 #解碼
    print(html)                                 #打印
    
if __name__ == "__main__":
    url = "http://jandan.net/ooxx/" #'http://www.douban.com/'
    openUrl(url)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 分別用python2和python3偽裝瀏覽器爬取網頁內容 python3讀取chrome瀏覽器cookies python3用pyqt5開發簡易瀏覽器 Python爬蟲使用瀏覽器的cookies：browsercookie python爬蟲 -- 瀏覽器的抓包編碼可以絕對信任嗎 python爬蟲模擬瀏覽器訪問-User-Agent docker+python無頭瀏覽器爬蟲 python爬蟲:使用Selenium模擬瀏覽器行為 Python爬蟲常用之登錄(二) 瀏覽器模擬登錄 Python爬蟲之selenium爬蟲，模擬瀏覽器爬取天貓信息