Spiderman
Spiderman 是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。 Spiderman主要是運用了像XPath、正則、表達式引擎等這些技術來實現數據抽取。
項目結構:
依賴關系如下:
webmagic
webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內容抽取、持久化),支持多線程抓取,分布式抓取,並支持自動重試、自定義UA/cookie等功能。
工程結構:
工程間的關系:
眾推
用整體正在進行中,目前積中在分布式爬蟲階段。
目前設計階段的結構為:
基本思想為:
WEB:界面及功能部分。
SAMPLES:示例部分。
CORE:需要調用的核心包。
RULES:規則處理部分。
PARSERS:解析部分。
PLUGIN:插件部分。
CDOOP:分布式處理部分。
ADAPTER:代理適配部分。
STORE:存儲層。
目前項目的地址在: