在實現了processor接口的時候,把抓取的數據通過
page.putField("key", value);
發送到自定義的Pipeline中,對數據進行后期處理,如分析,存儲等
實現方式:繼承Pipeline接口,比如:
public class MyPipeline implements Pipeline { @Override public void process(ResultItems resultItems, Task task) { User inPlay = resultItems.get("user");// 收到抓取程序傳遞的滾球Inplay對象 List<String> list = resultItems.get("list"); //收到抓取程序傳遞的聯賽對象
......
} }
經常直接將數據存到mysql,redis等數據庫中,數據持久化的工具就不用我說了吧?jdbc,mybatis等
webMagic中以及默認實現了一些pipeLine