對於爬蟲框架本身來說,都是很優秀的,說那個更好,不如說那個更適合公司的業務需求。比如javaweb項目中需要某些網站的金融系列新聞,得每天定時去抓取一些數據,你就可以考慮WebMagic框架,能夠輕松的將爬蟲代碼邏輯模塊化到項目中,毫無違和感。當然也可以是別的框架,只要合適就好(以上爬蟲框架就不介紹了,真要說說,估計得長篇大論了.....可以查閱相關資料進行詳細的了解)。
這些開源的爬蟲框架大都是把復雜的問題解決掉,然后封裝,在之后就是我們用的很簡單、方便,不必考慮那些URL去重、代理、線程池管理等等問題,當然建議看看源碼,多想想他們的設計思想以及實現邏輯。
我們在以前項目中用的爬蟲框架是java語言的WebMagic和python語言的PySpider。普通java爬蟲項目中都可以多多考慮WebMagic和WebCollector絕對夠用(反正用啥都得考慮動態js抓取,圖片驗證碼識別等等那些反爬蟲機制,這一定是個持久戰,哈哈),上手簡單易擴展,注重業務開發就好。如果大型分布式、業務夠復雜、需求點夠多、數據夠龐大下的估計用哪個框架也得進行二次擴展了。所以選那個框架不必那么糾結。
另外搞爬蟲不得不推薦python了,易學,語法簡單,一個簡單的爬蟲程序可能半個小時就搞定了。雖然在調試上很費時間,但是當有一定經驗了,很多問題就可以規避掉或者bug定位很快。當然也有痛點,但是這些痛點對於整個項目成本來說完全可以接受。