webmagic最簡單的列表頁和詳情頁爬取

本文轉載自查看原文 2018-10-17 10:55 1942

首先對於河北省采購網爬取數據，要有兩個url，一個是列表頁鏈接url_list，一個是文章頁鏈接url_poost
由於爬取的頁面較為簡單，所以並不需要書寫正則表達式來篩選文章頁鏈接直接在url_list下獲取並添加到請求中：page.addTargetRequests(page.getHtml().xpath("//div[@id=\"tablediv\"]").links().all());

其中，div[@id=\"tablediv\"]對應爬取的網頁中的包含文章列表鏈接的標簽，如圖：

3.正常獲取到后在通過xpath提取指定標簽的內容：

page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));

如圖：

4.在初始運行的時候要首先加載一個網址鏈接

public static void main(String[] args) {

Spider.create(new GitHub()).addUrl("http://www.ccgp-hebei.gov.cn/province/cggg/zbgg/index.html")

.run();

}

page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 VUE通過id從列表頁跳轉到相對的詳情頁 vue通過id從列表頁跳轉到對應的詳情頁商品列表跳轉詳情頁（項目過程思路） webmagic 增量爬取 vue列表頁進入詳情頁，返回列表項不刷新 vue從詳情頁回到列表頁，停留在之前的tab上 vue.js3: 從詳情頁返回列表頁,顯示跳轉前列表而不是第一頁(vue@3.2.26) jquery襯衣產品內容詳情頁商品詳情頁系統架構 vue項目實現列表頁-詳情頁返回不刷新，再點其他菜單項返回刷新的需求