Java开源爬虫框架-crawler4j

本文转载自查看原文 2020-07-16 11:43 1166 java爬虫

爬虫，Crawler，最早被用于搜索引擎收录页面，例如百度蜘蛛等等。说简单点，原理就是根据一些规则，获取url和页面，再从获取到的页面中继续提取url，一直进行下去。

现在爬虫不仅仅用于搜索引擎抓取页面，也大量用于数据分析、数据挖掘等方面，在大数据的今天，爬虫的作用越来越重要。WEB爬虫的具体作用可以参考以下知乎上的一篇文章：

有哪些网站用爬虫爬取能得到很有价值的数据？

当然只是获取到数据往往是不够的，还要对数据进行分析，提取出有用的、有价值的信息，这才是爬虫的正真目的。

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 [

使用它，你可以在几分钟内设置一个多线程的网络爬虫。

网上看到两篇写的比较好的文章，怕需要的时候找不到出处，提前保留一下地址

原文链接：

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 [开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计 [开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [五] 如何做全站采集? [开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [二] 基本使用基于node.js的爬虫框架 node-crawler简单尝试 [ Crawler ] 爬虫防屏蔽技巧 Python网络爬虫（3）：开源爬虫框架对比 JAVA开源爬虫列表及简介 Java爬虫框架--WebMagic Java爬虫框架调研开源通用爬虫框架YayCrawler-开篇