分布式爬蟲技術架構


Spiderman

Spiderman 是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。 Spiderman主要是運用了像XPath、正則、表達式引擎等這些技術來實現數據抽取。

項目結構:

image

依賴關系如下:

image

webmagic

webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,並支持自動重試、自定義UA/cookie等功能。

image

工程結構:

image

工程間的關系:

image

眾推

用整體正在進行中,目前積中在分布式爬蟲階段。

241133427088097

目前設計階段的結構為:

cdoop

基本思想為:

WEB:界面及功能部分。

SAMPLES:示例部分。

CORE:需要調用的核心包。

RULES:規則處理部分。

PARSERS:解析部分。

PLUGIN:插件部分。

CDOOP:分布式處理部分。

ADAPTER:代理適配部分。

STORE:存儲層。

目前項目的地址在:

https://github.com/zongtui/zongtui-webcrawler


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM