爬蟲的本質是什么
搞爬蟲或者面試官總是覺得分布式爬蟲是一個很牛逼的東西,認為只有會分布式爬蟲才能體現一個爬蟲工程師的最高技術水平,而不會分布式爬蟲,則認為爬蟲工程師的水平很菜,這是一種很膚淺的思想。
一:在實際的工作中,爬蟲根本不需要去分布式爬蟲
1.現在服務器越來越好,網絡也越來越好,一台優秀的服務器加上好的網絡,開多線程或者多進程抓取等並發抓取手段,完全可以輕松實現日抓取千萬數據。
2.大部分公司的數據采集量,每日也就是幾十萬或者采集網站數據量也就幾萬條數據而已。沒有那么大的數據量,去搞分布式爬蟲有什么那么意義呢?
二:分布式爬蟲只是提高爬蟲效率的一個環節,,它從來不是爬蟲的本質東西。
爬蟲的本質是網絡請求和數據處理,如何穩定地訪問網頁拿到數據,如何精准地提取出高質量的數據才是爬蟲要去解決的核心問題。
分布式爬蟲只有當爬蟲任務量很大的時候才會凸顯優勢,一般情況下也確實不必動用這個大殺器,所以要明確你的目標是什么,當數據量很少的時候。
,根本就沒有必要去搞分布式爬蟲,對大部分公司所抓取得數據量來說,搞分布式爬蟲意義不大