webmagic最简单的列表页和详情页爬取

本文转载自查看原文 2018-10-17 10:55 1942

首先对于河北省采购网爬取数据，要有两个url，一个是列表页链接url_list，一个是文章页链接url_poost
由于爬取的页面较为简单，所以并不需要书写正则表达式来筛选文章页链接直接在url_list下获取并添加到请求中：page.addTargetRequests(page.getHtml().xpath("//div[@id=\"tablediv\"]").links().all());

其中，div[@id=\"tablediv\"]对应爬取的网页中的包含文章列表链接的标签，如图：

3.正常获取到后在通过xpath提取指定标签的内容：

page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));

如图：

4.在初始运行的时候要首先加载一个网址链接

public static void main(String[] args) {

Spider.create(new GitHub()).addUrl("http://www.ccgp-hebei.gov.cn/province/cggg/zbgg/index.html")

.run();

}

page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 电影天堂爬取详情页 scrapy爬取网址，进而爬取详情页问题 [django]详情页列表页列表页到详情页，从详情页返回之前列表页的位置 VUE通过id从列表页跳转到相对的详情页 vue通过id从列表页跳转到对应的详情页商品列表页、详情页功能实现 vue通过id从列表页跳转到对应的详情页使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）商品详情页