Python爬蟲-代理池-爬取代理入庫並測試代理可用性

本文轉載自查看原文 2019-05-27 21:13 761 爬蟲/ Python

目的：建立自己的代理池。可以添加新的代理網站爬蟲，可以測試代理對某一網址的適用性，可以提供獲取代理的 API。

整個流程：爬取代理 ----> 將代理存入數據庫並設置分數 ----> 從數據庫取出代理並檢測 ----> 根據響應結果對代理分數進行處理 ----> 從 API 取出高分代理 ----> 用高分代理爬取目標網站

分析：

1、爬蟲類的編寫：負責抓取代理並返回。

2、數據庫類的編寫：負責代理的存取與代理分數的設置。

3、保存類的編寫：負責執行爬取，並將結果存入數據庫。

4、測試代理類的編寫：負責測試代理對目標網站的可用性。

5、提取代理 API 的編寫：負責提供獲取代理信息的接口。

具體實現：

1、Crawler：

2、RedisClient：

3、Saver：

4、Tester：

5、API：

總結：這里我只爬取了兩個代理網站的代理，西刺和快代理，可以在 Crawler 類中添加名稱以 crwal_ 開始的方法來擴充。詳細代碼我放到 Github上了，https://github.com/ysl125963/proxy-pool

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲代理池什么是系統可用性冒煙測試（smoke test）、可用性測試（sanity test）和回歸測試（regression test） scrapy 解決爬蟲IP代理池，數據輕松爬。 mysql-5.7.20 版本的 mysql-group-replication 可用性測試報告 python爬蟲18 | 就算你被封了也能繼續爬，使用IP代理池偽裝你的IP地址，讓IP飄一會漫畫：性能、可用性和鎖 SLA服務可用性怎么達到？談服務可用性監控 SAP PP ATP 可用性檢查