寫爬蟲,是一個非常考驗綜合實力的活兒。
有時候,你輕而易舉地就抓取到了想要的數據;
有時候,你費盡心思卻毫無所獲。
好多Python爬蟲的入門教程都是一行代碼就把你騙上了“賊船”,等上了賊船才發現,水好深~
比如爬取一個網頁可以是很簡單的一行代碼:
requests.get('https://www.cnblogs.com/kai-/p/11807381.html')
非常的簡單,但它的作用也僅僅是爬取一個網頁,而一個有用的爬蟲遠遠不止於爬取一個網頁。
一個有用的爬蟲,只需兩個詞來衡量:
- 數量:能否抓全所有該類數據
- 效率:抓完所有數據需要多久一天還是一個月
但要做到這兩個詞,卻是要下很多功夫。
自己下功夫是一方面,也很重要的是你要抓取的目標網站給你出了多少難題。
綜合起來,就寫一個爬蟲有多少難度。
如何能在最短時間抓取更多數據?
如何能及時抓取到最新的數據?
如何存儲抓取到的海量數據?
如何清理提取數據?
如何獲取登錄狀態?
如何處理驗證碼?
如何爬取ajax異步加載?
如何解密JavaScript?