爬蟲難點分析

本文轉載自查看原文 2017-08-21 22:26 1349 java爬蟲

難點分析

1.網站采取反爬策略

2.網站模板定期變動

3.網站url抓取失敗

4.網站頻繁抓取ip被封

1.網站采取反爬策略

》網站默認對方正常訪問的方式是瀏覽器訪問而不是代碼訪問，為了防止對方使用大規模服務器進行爬蟲從而導致自身服務器承受過大的壓力，通常網站會采取反爬策略

根據這一特性，我們用代碼模擬實現瀏覽器訪問

2.網站模板定期變動—解決方案

》標簽變動，比如<div>變動，那么我們不能把代碼給寫死了

(1)不同配置文件配置不同網站的模板規則

(2)數據庫存儲不同網站的模板規則

網站URL抓取失敗—解決方案

》可能網絡有問題，斷網、網絡波動、對方服務器的問題等都會導致網站URL抓取失敗

(1)HttpClient默認處理方式，比如嘗試三次

(2)Storm實時解析失敗日志，將失敗URL重新加入抓取倉庫，一般超過三次就放棄。

網站頻繁抓取IP被封—解決方案

》這是我們爬蟲肯定會遇到的，比如對方可能會對你一段時間內發起訪問次數有所限制，超過限制就把你的IP給封了。下面是常見的幾種解決方式，實際上我們都是結合這些方式來降低IP被封的概率。

(1)購買代理IP庫，隨機獲取IP抓取數據

(2)部署多個應用分別抓取，降低單節點頻繁訪問

(3)設置每個頁面抓取時間間隔，降低被封概率

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬蟲的難點？什么是高級的爬蟲？爬蟲性能分析一個網絡爬蟲的分析開源爬蟲larbin分析 python3 爬蟲5--分析Robots協議 Python數據分析與爬蟲【爬蟲集合】抖音API分析 Python-天天基金網爬蟲分析極驗反爬蟲防護分析之交互流程分析關於ZedGraph幾個難點