爬蟲的本質是和分布式爬蟲的關系


爬蟲的本質是什么

搞爬蟲或者面試官總是覺得分布式爬蟲是一個很牛逼的東西,認為只有會分布式爬蟲才能體現一個爬蟲工程師的最高技術水平,而不會分布式爬蟲,則認為爬蟲工程師的水平很菜,這是一種很膚淺的思想。

一:在實際的工作中,爬蟲根本不需要去分布式爬蟲

  1.現在服務器越來越好,網絡也越來越好,一台優秀的服務器加上好的網絡,開多線程或者多進程抓取等並發抓取手段,完全可以輕松實現日抓取千萬數據。

  2.大部分公司的數據采集量,每日也就是幾十萬或者采集網站數據量也就幾萬條數據而已。沒有那么大的數據量,去搞分布式爬蟲有什么那么意義呢?

二:分布式爬蟲只是提高爬蟲效率的一個環節,,它從來不是爬蟲的本質東西。

  爬蟲的本質是網絡請求和數據處理,如何穩定地訪問網頁拿到數據,如何精准地提取出高質量的數據才是爬蟲要去解決的核心問題。

 

分布式爬蟲只有當爬蟲任務量很大的時候才會凸顯優勢,一般情況下也確實不必動用這個大殺器,所以要明確你的目標是什么,當數據量很少的時候。

,根本就沒有必要去搞分布式爬蟲,對大部分公司所抓取得數據量來說,搞分布式爬蟲意義不大


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM