使用webmagic搭建一個簡單的爬蟲

本文轉載自查看原文 2017-04-08 17:23 39803 環境搭建

剛剛接觸爬蟲，聽說webmagic很不錯，於是就了解了一下。

webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼即可實現一個爬蟲。

這句話說的真的一點都不假，像我這樣什么都不懂的人直接下載部署，看了看可以調用的方法，馬上就寫出了第一個爬蟲小程序。

以下是我學習的過程：

首先需要下載jar：http://webmagic.io/download.html

部署好后就建一個class繼承PageProcessor接口，重寫process()方法，即可完成一個爬蟲。

是不是很簡單？

先上代碼，再講解吧。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class MyProcessor implements PageProcessor {
	// 抓取網站的相關配置，包括編碼、抓取間隔、重試次數等
	private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
    private static int count =0;
	
	@Override
	public Site getSite() {
		return site;
	}

	@Override
	public void process(Page page) {
        //判斷鏈接是否符合http://www.cnblogs.com/任意個數字字母-/p/7個數字.html格式
		if(!page.getUrl().regex("http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match()){
			//加入滿足條件的鏈接
			page.addTargetRequests(
					page.getHtml().xpath("//*[@id=\"post_list\"]/div/div[@class='post_item_body']/h3/a/@href").all());
		}else{                              
			//獲取頁面需要的內容
			System.out.println("抓取的內容："+
					page.getHtml().xpath("//*[@id=\"Header1_HeaderTitle\"]/text()").get()
					);
			count ++;
		}
	}

	public static void main(String[] args) {
		long startTime, endTime;
		System.out.println("開始爬取...");
        startTime = System.currentTimeMillis();
		Spider.create(new MyProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run();
		endTime = System.currentTimeMillis();
		System.out.println("爬取結束，耗時約" + ((endTime - startTime) / 1000) + "秒，抓取了"+count+"條記錄");
	}

}

由於剛開始學，技術有限，所以簡單地爬一下這些文章的作者。