一、主要思路
- scrapy爬取是有課程地址及名稱
- 使用multiprocessing進行下載
- 就是為了爬點視頻,所以是簡單的代碼堆砌
- 想而未實行,進行共享的方式
二、文件說明

- itemsscray字段
- piplines.py存儲數據庫
- setting.py scrapy配置 需要注意的是DEFAULT_REQUEST_HEADERS的設置,需要模擬登錄
- mz.py是主要爬蟲 都是基本的爬蟲功能,css+xpath+正則
- start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的,可根據需要進行,或者全部,
- 本想不存儲進數據庫,直接在mz.py進行下載,但考慮到位會影響scrapy原有的性能,單獨進行下載

- down.py 使用multiprocessing進行下載 原本想着動態監聽scrapy在數據庫的中的結果,想實現進程的共享,調試多次還出現問題所以直接用Pool.Map()這種比較粗暴的方式,
- mz.json現存取進json,但考慮到來回操作json文件,影響效率,所以改用數據庫
三、結果
- 源碼 :https://git.oschina.net/getsai/mzSpider.git
- 視頻地址:
https://yunpan.cn/crjXKLGnkpzPk 訪問密碼 6c15