package cn.itcast.webmagic;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
public class JobProcessor implements PageProcessor {
//解析頁面
public void process(Page page) {
//解析返回的數據page,並且把解析的結果放到ResultItems中
page.putField("title",page.getHtml().css("title").all());
}
private Site site=Site.me();
public Site getSite() {
return site;
}
//主函數,執行爬蟲
public static void main(String[] args) {
Spider.create(new JobProcessor())
.addUrl("https://www.taobao.com/tbhome/page/market-list")//設置爬蟲數據的頁面
.addPipeline(new FilePipeline("C:\\Users\\Administrator\\Desktop\\result"))
.thread(5)
.run();
}
}
通過上面的代碼就可以實現將結果保存在文件中
當上面帶背景顏色的代碼省略不寫是,會直接打印在控制台,
下面的代碼.thread()多線程會提高效率