抓取網頁報403錯誤，爬蟲解決403禁止訪問錯誤方法

本文轉載自查看原文 2019-03-27 11:15 937 python/ java/ 綜合/ 403/ wget/ http/ 403禁止訪問/ 抓取網頁

一般就是被禁止了，加上對應的header參數就可以了，要具體分析正常訪問時需要那些頭信息
其中User-Agent是瀏覽器特有的屬性，通過瀏覽器F12調試器就可以看到

以下是Python示例，java也類似

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.xxx.net")
req.add_header("Referer","http://www.xxx.net/")

獲取瀏覽器類型的User-Agent信息，在自定義函數中需要寫出自己的Host,Referer,GET信息等，
解決這幾個問題，就可以順利訪問了，不再出現403禁止訪問了
如果訪問頻率過快的話，需要用到代理IP的方法。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 iis 部署完之后網頁報403禁止訪問錯誤爬蟲發起抓取被服務器拒絕訪問返回403禁止訪問解決方案微信小程序訪問豆瓣api報403錯誤解決方法 Linux中訪問Apache報403錯誤處理方法 Jmeter 訪問URL被禁止，錯誤代碼403 403 - 禁止訪問: 訪問被拒絕。 yum管理-使用yum命令報403 Forbidden錯誤的解決方法 Django的POST請求時因為開啟防止csrf，報403錯誤，及四種解決方法 jquery.validate提示錯誤方法 git clone時，報403錯誤，完美解決方案