抓取網頁報403錯誤,爬蟲解決403禁止訪問錯誤方法
一般就是被禁止了,加上對應的header參數就可以了,要具體分析正常訪問時需要那些頭信息
其中User-Agent是瀏覽器特有的屬性,通過瀏覽器F12調試器就可以看到
以下是Python示例,java也類似
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.xxx.net")
req.add_header("Referer","http://www.xxx.net/")
獲取瀏覽器類型的User-Agent信息,在自定義函數中需要寫出自己的Host,Referer,GET信息等,
解決這幾個問題,就可以順利訪問了,不再出現403禁止訪問了
如果訪問頻率過快的話,需要用到代理IP的方法。
