Webmagic之使用Pipeline保存結果


使用Pipeline保存結果

WebMagic用於保存結果的組件叫做Pipeline.我們現在通過“控制台輸出結果”,這件事也是通過一個內置的Pipeline完成的,它叫做ConsolePipeline

代碼:

package cn.itcast.webmagic;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;

public class JobProcessor implements PageProcessor {
//解析頁面
public void process(Page page) {
//解析返回的數據page,並且把解析的結果放到ResultItems中
page.putField("title",page.getHtml().css("title").all());
}
private Site site=Site.me();
public Site getSite() {
return site;
}
//主函數,執行爬蟲
public static void main(String[] args) {
Spider.create(new JobProcessor())
.addUrl("https://www.taobao.com/tbhome/page/market-list")//設置爬蟲數據的頁面
.addPipeline(new FilePipeline("C:\\Users\\Administrator\\Desktop\\result"))
.thread(5)
.run();
}
}
通過上面的代碼就可以實現將結果保存在文件中

 

 當上面帶背景顏色的代碼省略不寫是,會直接打印在控制台,

下面的代碼.thread()多線程會提高效率


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM