Scrapy命令行調用傳入自定義參數

本文轉載自查看原文 2020-09-01 21:40 1454 爬蟲/ Scrapy

在做爬蟲服務化時，有這樣一個需求：接口用命令行啟動爬蟲，但是數據入庫時要記錄此次任務的task_id。

簡單說就是，Scrapy命令行啟動時要動態傳參進去。

解決方案：

在spider中定義一個構造函數

def __init__(self, task_id=None, *args, **kwargs): super(AtomicscientistSpider, self).__init__(*args, **kwargs) self.task_id = task_id

通過使用-a可以向爬蟲文件中定義的類傳遞屬性，然后在該類中獲取該屬性即可實現傳入自定義參數。

這樣，在啟動scrapy時，task_id當做參數傳入spider中了：

scrapy crawl spider_name -a task_id=123

解釋說明：

其他示例：

可用來傳入參數，控制爬取的頁數。

def __init__(self, pages=None, *args, **kwargs): super(LvideoSpider, self).__init__(*args, **kwargs)
    self.pages = pages ... def parse(self, response): pages = re.findall(r'當前:1/(\d+)頁', response.text, re.S)[0] link = response.meta['format_page'] # 如果self.pages存在，那么就會代替正則取到的頁數
    if self.pages: pages = self.pages print('共' + str(pages) + '頁') for page in range(1, int(pages) + 1): page_link = link.format(page) yield Request(page_link, callback=self.parse_video_link, meta={'soucre_name': response.meta['soucre_name'], 'domin': response.meta['domin'], 'page_link': page_link}, dont_filter=True)

啟動並控制爬取的頁數：

scrapy crawl spider_name -a pages=10

參考：

https://scrapy-chs.readthedocs.io/zh_CN/latest/

https://zhuanlan.zhihu.com/p/62584367

https://www.jianshu.com/p/a7d32207a5f8

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 webpack 命令行傳入自定義變量 Java：命令行參數的傳入和調用 pytest自定義命令行參數 git 自定義命令行 robotframework從命令行傳入參數 hive 命令行傳入參數 python命令行傳入參數腳本命令行傳入的參數 Mac 命令行，自定義命令 ThinkPHP5.0框架自定義命令行