非計算機專業小白自學爬蟲全指南（附資源）

本文轉載自查看原文 2018-08-22 14:22 1932

爬蟲是我接觸計算機編程的入門。哥當年寫第一行代碼的時候別提有多痛苦。

本文旨在用一篇文章說透爬蟲如何自學可以達到找工作的要求。

爬蟲的學習就是跟着實際項目去學，每個項目會涉及到不同的知識點，項目做多了，自然也就會了。練練練！！！！

本文推薦的資源就是以項目練習帶動爬蟲學習，囊括了大部分爬蟲工程師要求的知識點。

爬蟲工程師要求知識點

1、python入門和進階（進階的包括多進程等等）

2、HTTP知識（因為要爬的是網頁，所以要了解網頁）

2、web前端：HTML、CSS、Javascript等

3、爬蟲知識（爬蟲基本庫的使用、scrapy框架等）

4、反爬蟲（代理池、分布式等等）

5、數據庫（大批量數據的儲存涉及mysql等）

先導知識

HTTP協議：https://www.cnblogs.com/ranyonsue/p/5984001.html

html，css，javascript：學爬蟲這些東西是肯定要看的，推薦W3school，倒也不用全看，懂個大概就好了

最佳學習資源推薦

前期教程：https://cuiqingcai.com/1052.html（現今網上最全的爬蟲學習教程）

目錄列表：

但是，只學完上面是不夠找工作的，所以我整理了下面的資料，是我花了幾個月時間自學，精選來的教程，重中之重。包含知識點：IP代理、mongoDB、mysql、抓包、分布式、selenium、模擬登陸、cookie等等

爬蟲實戰項目一，涉及知識點：mysql儲存、斷點續爬、抓包app、ip代理、cookie模擬登陸

1、https://zhuanlan.zhihu.com/p/26810901

2、https://zhuanlan.zhihu.com/p/26527575

3、https://www.cnblogs.com/hearzeus/p/5157016.html

4、https://www.jianshu.com/p/887af1ab4200

爬蟲實戰項目二，涉及知識點：scrapy具體應用

scrapy知識點：https://www.cnblogs.com/cnkai/category/1061919.html

scrapy中文文檔：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html

scrapy項目實戰：https://www.cnblogs.com/cnkai/category/1062011.html

補充：https://segmentfault.com/a/1190000009321902

爬蟲實戰項目三，涉及知識點：去重、分布式、多進程、模擬登陸

1、https://cuiqingcai.com/4352.html

數據庫，掌握基本用法即可

mysql：http://www.runoob.com/mysql/mysql-tutorial.html

mongodb：http://www.runoob.com/mongodb/mongodb-tutorial.html

找工作必備

計算機基礎，包含（數據結構與算法、計算機網絡協議等計算機專業基本課程、我前面的文章里有介紹怎么學），非計算機專業學生容易忽略

其他技能（可選，加分）

javascript，驗證碼，app破解

1、要想破解加密，得非常強悍的javascript基礎，這個我也不是很懂

2、驗證碼，工業界目前破解驗證碼還是用打碼平台

3、現在不僅僅是網站破解了，很多公司需要你抓app的數據，抓包最常用，你還得會app脫殼之類的，這些我就不懂了。

拓展閱讀：

一文了解爬蟲與反爬蟲

https://segmentfault.com/a/1190000005840672

最后，請注意，爬蟲的工作機會相對較少。

文章發布，討論學習，公眾號：learningthem

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 計算機專業如何自學非計算機專業自學兩年計算機的感悟為什么選擇計算機專業大學想報計算機專業，暑假想要自學，有哪些建議？計算機編程自學怎么樣？計算機專業學習視頻及安裝包資源[網盤分享合集] 計算機專業學生常用網站隨筆 | 對計算機專業的自我思考計算機專業英語（二）計算機專業就業方向