最近一兩年短視頻業務風生水起,各個視頻網站都有各自特色的短視頻內容。如果有這樣一個程序,可以把各大視頻網站的熱門用戶最新發布的視頻都下載下來,不僅方便自己觀看,還可以將沒有版權的視頻發布在個人社交網站上,增加自己的人氣,豈不美哉?
parker就是這樣一個項目(項目地址:https://github.com/LiuRoy/parker),它采用celery框架定時爬取用戶視頻列表,將最新發布的視頻通過you-get異步下載,可以很方便地實現分布式部署。因為各個網站的頁面布局和接口更新比較頻繁,為了保證程序的高可用,特意增加了Statsd監控,方便及時發現出錯。
代碼架構
目前parker中只實現了B站和秒拍的下載,從框架圖可以看出,針對每一類網站,需要實現兩個異步接口:從用戶視頻主頁解析發布視頻的播放地址、根據播放地址下載視頻。因此增加網站類型,不需要修改原來的代碼,只需要添加新的解析和下載接口即可。針對視頻下載完成之后的后續操作,我還沒有實現,大家可以根據自己的需求自由的去實現。
在運行的時候,celery會將配置好的優質用戶列表定時發送到對應網站的解析接口異步執行,篩選出最新發布的視頻播放地址,交給對應的下載接口異步下載,下載完成之后再異步調用后續操作。因此需要啟動一個celery beat進程發送定時任務,以及若干celery異步任務去執行解析和下載操作,對於比較大的視頻,下載會相當耗時,建議根據任務列表的多少合理分配異步任務的個數。
程序運行
經驗證,此程序可以在ubuntu和mac下正常運行, 由於本地windows下的celery無法正常啟動,所以沒有在windows環境做過驗證。
依賴庫安裝
python版本為3.5,進入項目目錄后,執行:
1 |
pip install -r requirements.txt |
創建數據庫表
提前在數據庫中建好兩張表(sql: https://github.com/LiuRoy/parker/blob/master/spider/models/tables.sql)
參數配置
config路徑下的logging.yaml、params.yaml、sites.yaml分別對應日志配置、運行參數配置、熱門用戶配置。
日志配置
debug模式下日志會直接輸出在標准輸出流,release模式下會將日志內容輸出到文件中,因此需要配置輸出日志文件。
運行配置
- mode debug調試模式,此模式下日志指向標准輸出,並且沒有監控數據;release模式下,日志輸出到制定文件,並且有監控數據。
- broker_url 對應於celery的BROKER_URL,可以配置為redis或者rabbitmq
- mysql_url 數據庫地址,需要提前建好兩張表
- download_path 視頻下載路徑
- statsd_address 監控地址
- video_number_per_page 每次從用戶視頻主頁解析出多少條視頻播放地址,因為大部分用戶每次發布的視頻個數很少,只需要設置成一個很小的值即可。在初次運行的時候,也不會下載大量久遠的視頻。
- download_timeout 視頻下載的超時時間
熱門用戶配置
parker會根據此配置生成一份celery beat scheduler列表。
- name 規則是
-
,parker會根據此作為scheduler任務名稱 - url 用戶的發布視頻主頁
- task 對應的celery解析異步任務
- minute 多少分鍾檢查一次用戶視頻列表
啟動任務
進入項目目錄,執行下面命令啟動celery worker
1 |
celery -A spider worker |
執行下面命令啟動celery beat定時任務
1 |
celery -A spider beat |
監控
強烈安利一個docker鏡像 https://hub.docker.com/r/samuelebistoletti/docker-statsd-influxdb-grafana/,一分鍾配好監控環境有木有。之后只需要添加執行成功和執行異常的打點數據,就可以方便的監控程序是否正常運行了。