抓取網頁報403錯誤,爬蟲解決403禁止訪問錯誤方法


抓取網頁報403錯誤,爬蟲解決403禁止訪問錯誤方法

一般就是被禁止了,加上對應的header參數就可以了,要具體分析正常訪問時需要那些頭信息
其中User-Agent是瀏覽器特有的屬性,通過瀏覽器F12調試器就可以看到

以下是Python示例,java也類似

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.xxx.net")
req.add_header("Referer","http://www.xxx.net/")

獲取瀏覽器類型的User-Agent信息,在自定義函數中需要寫出自己的Host,Referer,GET信息等,
解決這幾個問題,就可以順利訪問了,不再出現403禁止訪問了
如果訪問頻率過快的話,需要用到代理IP的方法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM