webmagic最簡單的列表頁和詳情頁爬取


  1. 首先對於河北省采購網爬取數據,要有兩個url,一個是列表頁鏈接url_list,一個是文章頁鏈接url_poost
  2. 由於爬取的頁面較為簡單,所以並不需要書寫正則表達式來篩選文章頁鏈接直接在url_list下獲取並添加到請求中:page.addTargetRequests(page.getHtml().xpath("//div[@id=\"tablediv\"]").links().all());
  其中,div[@id=\"tablediv\"]對應爬取的網頁中的包含文章列表鏈接的標簽,如圖:

3.正常獲取到后在通過xpath提取指定標簽的內容:
        page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));
        如圖:

        4.在初始運行的時候要首先加載一個網址鏈接
public static void main(String[] args) {
    Spider.create(new GitHub()).addUrl("http://www.ccgp-hebei.gov.cn/province/cggg/zbgg/index.html")
            .run();
}
  • 去標簽:(/text())
             page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM