- 首先對於河北省采購網爬取數據,要有兩個url,一個是列表頁鏈接url_list,一個是文章頁鏈接url_poost
- 由於爬取的頁面較為簡單,所以並不需要書寫正則表達式來篩選文章頁鏈接直接在url_list下獲取並添加到請求中:page.addTargetRequests(page.getHtml().xpath("//div[@id=\"tablediv\"]").links().all());
其中,div[@id=\"tablediv\"]對應爬取的網頁中的包含文章列表鏈接的標簽,如圖:
3.正常獲取到后在通過xpath提取指定標簽的內容:
page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));
如圖:
4.在初始運行的時候要首先加載一個網址鏈接
public static void main(String[] args) {
Spider.create(new GitHub()).addUrl("http://www.ccgp-hebei.gov.cn/province/cggg/zbgg/index.html")
.run();
}
- 去標簽:(/text())
page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));