學爬蟲,需要理論與實踐相結合,Python生態中的爬蟲庫多如牛毛,urllib、urllib2、requests、beautifulsoup、scrapy、pyspider都是爬蟲相關的庫,但是如果沒有理論知識,純粹地學習如何使用這些API如何調用是不會有提升的。所以,在學習這些庫的同時,需要去系統的學習爬蟲的相關原理。
你需要懂的技術包括但不限於Python編程語言、HTTP協議(TCP/IP協議棧)、數據庫、Linux等知識
Python入門:《A Byte of Python》
HTTP入門:《圖解HTTP》
數據庫入門:《MySQL必知必會》
Linux入門:《快樂的 Linux 命令行》
正則入門:《精通正則表達式 》
還有一本專門講爬蟲的書:《用Python寫網絡爬蟲》