爬虫,Crawler,最早被用于搜索引擎收录页面,例如百度蜘蛛等等。说简单点,原理就是根据一些规则,获取url和页面,再从获取到的页面中继续提取url,一直进行下去。
现在爬虫不仅仅用于搜索引擎抓取页面,也大量用于数据分析、数据挖掘等方面,在大数据的今天,爬虫的作用越来越重要。WEB爬虫的具体作用可以参考以下知乎上的一篇文章:
有哪些网站用爬虫爬取能得到很有价值的数据?
当然只是获取到数据往往是不够的,还要对数据进行分析,提取出有用的、有价值的信息,这才是爬虫的正真目的。
Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 [
使用它,你可以在几分钟内设置一个多线程的网络爬虫。
网上看到两篇写的比较好的文章,怕需要的时候找不到出处,提前保留一下地址
原文链接: