python | 爬蟲筆記 - 學習路線


總體學習路徑:
1、學習 Python 包並實現基本的爬蟲過程
2、了解非結構化數據的存儲
3、學習scrapy,搭建工程化爬蟲
4、學習數據庫知識,應對大規模數據存儲與提取
5、掌握各種技巧,應對特殊網站的反爬措施
6、分布式爬蟲,實現大規模並發采集,提升效率
 
· 目標驅動
· 在一開始的時候,盡量不要系統地去啃一些東西,找一個實際的項目(開始可以從豆瓣、小豬這種簡單的入手),直接開始就好。
· 高效的姿勢就是從實際的項目中去學習這些零散的知識點,你能保證每次學到的都是最需要的那部分。
 

 

##本系列內容為《python3爬蟲開發實戰》學習筆記。本系列博客列表如下:

(零)學習路線

(一)開發環境配置

(二)爬蟲基礎

(三)基本庫使用

(四)解析庫使用

(五)數據存儲

(六)Ajax數據爬取

(七)動態渲染頁面爬取Selenium

持續更新...

對應代碼請見:..

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM