花费 20 ms
基于java的分布式爬虫

分类 分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载 ...

Mon Apr 20 18:35:00 CST 2015 5 28328
分布式爬虫技术架构

Spiderman Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等 ...

Fri Mar 27 03:13:00 CST 2015 1 14839
众推平台架构——分布式爬虫

分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定。 大家决定 全力以付,集中攻克“分布式爬虫”。 分布式爬虫架构1 使用队列,即生产者,消费都模式。 由于生产者将规则生成到队 ...

Tue Mar 24 19:34:00 CST 2015 1 8198
众推项目的最近讨论

openKM 想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件? 不知道openkm能不能做到。 OpenKM是一个开放源代码的电子文档管理系统, ...

Thu Apr 30 21:22:00 CST 2015 0 3047
跟我一起数据挖掘(23)——C4.5

C4.5简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的 ...

Wed Apr 01 00:22:00 CST 2015 1 2014

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM