Scrapy命令行调用传入自定义参数

本文转载自查看原文 2020-09-01 21:40 1454 爬虫/ Scrapy

在做爬虫服务化时，有这样一个需求：接口用命令行启动爬虫，但是数据入库时要记录此次任务的task_id。

简单说就是，Scrapy命令行启动时要动态传参进去。

解决方案：

在spider中定义一个构造函数

def __init__(self, task_id=None, *args, **kwargs): super(AtomicscientistSpider, self).__init__(*args, **kwargs) self.task_id = task_id

通过使用-a可以向爬虫文件中定义的类传递属性，然后在该类中获取该属性即可实现传入自定义参数。

这样，在启动scrapy时，task_id当做参数传入spider中了：

scrapy crawl spider_name -a task_id=123

解释说明：

其他示例：

可用来传入参数，控制爬取的页数。

def __init__(self, pages=None, *args, **kwargs): super(LvideoSpider, self).__init__(*args, **kwargs)
    self.pages = pages ... def parse(self, response): pages = re.findall(r'当前:1/(\d+)页', response.text, re.S)[0] link = response.meta['format_page'] # 如果self.pages存在，那么就会代替正则取到的页数
    if self.pages: pages = self.pages print('共' + str(pages) + '页') for page in range(1, int(pages) + 1): page_link = link.format(page) yield Request(page_link, callback=self.parse_video_link, meta={'soucre_name': response.meta['soucre_name'], 'domin': response.meta['domin'], 'page_link': page_link}, dont_filter=True)

启动并控制爬取的页数：

scrapy crawl spider_name -a pages=10

参考：

https://scrapy-chs.readthedocs.io/zh_CN/latest/

https://zhuanlan.zhihu.com/p/62584367

https://www.jianshu.com/p/a7d32207a5f8

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 webpack 命令行传入自定义变量 Java：命令行参数的传入和调用 pytest自定义命令行参数 git 自定义命令行 robotframework从命令行传入参数 hive 命令行传入参数 python命令行传入参数脚本命令行传入的参数 Mac 命令行，自定义命令 ThinkPHP5.0框架自定义命令行