python反爬蟲解決方法——模擬瀏覽器上網

本文轉載自查看原文 2018-01-24 10:48 2071 Python學習筆記

之前第一次練習爬蟲的時候看網上的代碼有些會設置headers，然后后面的東西我又看不懂，今天終於知道了原來這東西是用來模擬瀏覽器上網用的，因為有些網站會設置反爬蟲機制，所以如果要獲取內容的話，需要使用瀏覽器上網才可以。

獲取headers的方法很簡單，首先打開審查元素界面，有個Network選項，點進去會顯示如下：

接下來刷新一下：

點擊第一個5151757后右邊會顯示Headers選項，我們所需要的就在這個選項卡里面：

在最后面就有這樣的一個信息，這就是我們所需要的。

1 from urllib import request
2 
3 url = "http://blog.csdn.net/beliefer/article/details/51251757"
4 header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
5 req = request.Request(url, headers = header)
6 text = request.urlopen(req).read().decode()
7 print(text)

這樣就能成功的爬取到網頁信息了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python3爬蟲的模擬瀏覽器火狐瀏覽器上網速度慢解決方法啟動fiddler導致瀏覽器無法上網的解決方法 win10只有edge瀏覽器能上網的解決方法 Android模擬器不能上網的解決方法 python爬蟲模擬瀏覽器訪問-User-Agent python爬蟲:使用Selenium模擬瀏覽器行為 Python爬蟲常用之登錄(二) 瀏覽器模擬登錄 Python爬蟲 | requests模擬瀏覽器發送請求 python爬蟲:使用Selenium模擬瀏覽器行為