python爬蟲:爬取慕課網視頻


前段時間安裝了一個慕課網app,發現不用注冊就可以在線看其中的視頻,就有了想爬取其中的視頻,用來在電腦上學習。
決定花兩天時間用學了一段時間的python做一做。(我的新書《Python爬蟲開發與項目實戰》出版了,大家可以看一下樣章

我使用的是pycharm進行開發,使用BeautifulSoup模塊解析html,整個代碼進行了比較詳細的注釋。
整個工程結構:

----entity

--------__init__.py

--------fileinfor.py用來描述視頻文件信息

----filedeal

--------__init__.py

--------file_downloader.py用於視頻文件的下載

----spider 爬蟲的核心內容
--------__init__.py

--------html_downloader.py html下載器

--------html_parser.py html解析器

--------spiderman.py 爬蟲核心邏輯

----test test文件夾主要是用來測試一些用例,不參與整個程序運行

----conf.py 一些全局變量

----index.py 程序啟動入口

運行環境:
python 2.7.X
需要安裝的支持模塊:
BeautifulSoup (pip install或者下載源代碼包setup.py),下載鏈接:https://pypi.python.org/pypi/beautifulsoup4/4.3.2

運行:在windows上直接雙擊start.bat,linux上沒試

現在將程序運行起來,雙擊start.bat:

輸入課程號,選擇視頻品質:

等到顯示100%時,會將視頻下載到當前目錄下

源代碼在我的github上:https://github.com/qiyeboy/spider_smooc

歡迎大家指教學習

我的微信公眾號:qiye_python

 

請大家關注,我會經常分享我的技術和作品,大家共同進步

 










免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM