url無限采集工具
一丶運行環境:python3 + redis數據庫
二丶采集原理:從初始關鍵詞里面采集網址,然后在網址里面爬取關鍵字,一邊采集關鍵字,一邊采集網址,redis數據庫自動去重,多線程模式采集網址加url
地球不爆炸 采集不停止
redis數據庫安裝參考:https://www.cnblogs.com/xiaomage666/p/11528092.html
最好是放服務器采集,速度快,我本機只做一個基本的演示!
現在數據庫里面是沒任何內容的 現在開始采集:
可以中途暫停,只要數據庫里面的內容不被清空,下次繼續采集不會受影響
我本機環境惡劣 放服務器里面是最好的
盡管這樣 一分鍾也可以采集好幾千url 自動去重的!!! 本機網速太慢,。。。服務器的話 一天可以采集上百萬url 前提是你服務器配置高 網速快!