scrapy 启动

本文转载自查看原文 2018-08-06 19:52 1723 scrapy

虚拟环境安装好了之后，scrapy 框架安装好了以后：

workon article_spider (项目名称)

scrapy startproject Article Spider 工程目录

cd 到工程目录

Scrapy genspider jobbole blog.jobbole.com 第一个文件名称要爬取网站的域名

启动一个工程的cmd： scrapy crawl jobbole

如果运行报 No module named “win32api”

要安装 pip install pypiwin32 这个包

settings

把

这样设置，否则遵循 robots.txt rules ,它将会不爬

如果是 xpath selector 对象想提取里面的内容，调用extract（）成一个列表，然后索引取出，但是列表没有值，索引取出就会报错，所以

extract_first 提取不到就返回None。比较好

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Scrapy同时启动多个爬虫 scrapy 框架的安装与启动 Scrapy爬虫的暂停和启动 scrapy框架简介与安装启动 Scrapy 教程(11)-API启动爬虫如何用脚本方式启动scrapy爬虫 scrapy在pycharm配置启动(无需命令行启动) scrapy scrapy 启动失败，scrapy startproject test 出错 'module' object has no attribute 'OP_NO_TLSv1_1 scrapy 源码解析（二）：启动流程源码分析(二) CrawlerProcess主进程