爬蟲,Crawler,最早被用於搜索引擎收錄頁面,例如百度蜘蛛等等。說簡單點,原理就是根據一些規則,獲取url和頁面,再從獲取到的頁面中繼續提取url,一直進行下去。
現在爬蟲不僅僅用於搜索引擎抓取頁面,也大量用於數據分析、數據挖掘等方面,在大數據的今天,爬蟲的作用越來越重要。WEB爬蟲的具體作用可以參考以下知乎上的一篇文章:
有哪些網站用爬蟲爬取能得到很有價值的數據?
當然只是獲取到數據往往是不夠的,還要對數據進行分析,提取出有用的、有價值的信息,這才是爬蟲的正真目的。
Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單接口。可以利用它來構建一個多線程的Web爬蟲。 [
使用它,你可以在幾分鍾內設置一個多線程的網絡爬蟲。
網上看到兩篇寫的比較好的文章,怕需要的時候找不到出處,提前保留一下地址
原文鏈接: