在做爬蟲服務化時,有這樣一個需求:接口用命令行啟動爬蟲,但是數據入庫時要記錄此次任務的task_id。
簡單說就是,Scrapy命令行啟動時要動態傳參進去。
解決方案:
在spider中定義一個構造函數
def __init__(self, task_id=None, *args, **kwargs): super(AtomicscientistSpider, self).__init__(*args, **kwargs) self.task_id = task_id
通過使用-a
可以向爬蟲文件中定義的類傳遞屬性,然后在該類中獲取該屬性即可實現傳入自定義參數。
這樣,在啟動scrapy時,task_id當做參數傳入spider中了:
scrapy crawl spider_name -a task_id=123
解釋說明:
其他示例:
可用來傳入參數,控制爬取的頁數。
def __init__(self, pages=None, *args, **kwargs): super(LvideoSpider, self).__init__(*args, **kwargs)
self.pages = pages ... def parse(self, response): pages = re.findall(r'當前:1/(\d+)頁', response.text, re.S)[0] link = response.meta['format_page'] # 如果self.pages存在,那么就會代替正則取到的頁數
if self.pages: pages = self.pages print('共' + str(pages) + '頁') for page in range(1, int(pages) + 1): page_link = link.format(page) yield Request(page_link, callback=self.parse_video_link, meta={'soucre_name': response.meta['soucre_name'], 'domin': response.meta['domin'], 'page_link': page_link}, dont_filter=True)
啟動並控制爬取的頁數:
scrapy crawl spider_name -a pages=10
參考:
https://scrapy-chs.readthedocs.io/zh_CN/latest/