python爬取並下載麥子學院所有視頻教程


一、主要思路

  1. scrapy爬取是有課程地址及名稱
  2. 使用multiprocessing進行下載
  3. 就是為了爬點視頻,所以是簡單的代碼堆砌
  4. 想而未實行,進行共享的方式

二、文件說明

  1. itemsscray字段
  2. piplines.py存儲數據庫
  3. setting.py scrapy配置 需要注意的是DEFAULT_REQUEST_HEADERS的設置,需要模擬登錄
  4. mz.py是主要爬蟲 都是基本的爬蟲功能,css+xpath+正則
  5. start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的,可根據需要進行,或者全部,
  6. 本想不存儲進數據庫,直接在mz.py進行下載,但考慮到位會影響scrapy原有的性能,單獨進行下載
  1. down.py 使用multiprocessing進行下載 原本想着動態監聽scrapy在數據庫的中的結果,想實現進程的共享,調試多次還出現問題所以直接用Pool.Map()這種比較粗暴的方式,
  2. mz.json現存取進json,但考慮到來回操作json文件,影響效率,所以改用數據庫

 

三、結果
  1. 源碼 :https://git.oschina.net/getsai/mzSpider.git
  2. 視頻地址:https://yunpan.cn/crjXKLGnkpzPk  訪問密碼 6c15






免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM