總體學習路徑:
1、學習 Python 包並實現基本的爬蟲過程
2、了解非結構化數據的存儲
3、學習scrapy,搭建工程化爬蟲
4、學習數據庫知識,應對大規模數據存儲與提取
5、掌握各種技巧,應對特殊網站的反爬措施
6、分布式爬蟲,實現大規模並發采集,提升效率
· 目標驅動
· 在一開始的時候,盡量不要系統地去啃一些東西,找一個實際的項目(開始可以從豆瓣、小豬這種簡單的入手),直接開始就好。
· 高效的姿勢就是從實際的項目中去學習這些零散的知識點,你能保證每次學到的都是最需要的那部分。
##本系列內容為《python3爬蟲開發實戰》學習筆記。本系列博客列表如下:
持續更新...
對應代碼請見:..