python反爬蟲解決方法——模擬瀏覽器上網


之前第一次練習爬蟲的時候看網上的代碼有些會設置headers,然后后面的東西我又看不懂,今天終於知道了原來這東西是用來模擬瀏覽器上網用的,因為有些網站會設置反爬蟲機制,所以如果要獲取內容的話,需要使用瀏覽器上網才可以。

獲取headers的方法很簡單,首先打開審查元素界面,有個Network選項,點進去會顯示如下:

接下來刷新一下:

點擊第一個5151757后右邊會顯示Headers選項,我們所需要的就在這個選項卡里面:

在最后面就有這樣的一個信息,這就是我們所需要的。

1 from urllib import request
2 
3 url = "http://blog.csdn.net/beliefer/article/details/51251757"
4 header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
5 req = request.Request(url, headers = header)
6 text = request.urlopen(req).read().decode()
7 print(text)

這樣就能成功的爬取到網頁信息了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM