花费 8 ms
一文搞懂HMM(隐马尔可夫模型)

什么是熵(Entropy) 简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和 ...

Thu Jul 16 22:52:00 CST 2015 34 300319
基于java的分布式爬虫

分类 分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载 ...

Mon Apr 20 18:35:00 CST 2015 5 28328
使用R画地图数据

用R画地图数据 首先,从这里下载中国地图的GIS数据,这是一个压缩包,完全解压后包含三个文件(bou2_4p.dbf、bou2_4p.shp和bou2_4p.shx),将这三个文件解压到同一个目录下 ...

Fri Feb 05 02:01:00 CST 2016 3 18432
跟我一起数据挖掘(22)——spark入门

Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于Map ...

Sun Mar 15 07:48:00 CST 2015 0 17066
分布式爬虫技术架构

Spiderman Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等 ...

Fri Mar 27 03:13:00 CST 2015 1 14839
跟我一起ggplot2(1)

ggplot2 R的作图工具包,可以使用非常简单的语句实现非常复杂漂亮的效果。 qplot 加载qplot #1. 按color,size,shape的基本分类可视化 ...

Thu Aug 13 02:12:00 CST 2015 0 10294
众推平台架构——分布式爬虫

分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定。 大家决定 全力以付,集中攻克“分布式爬虫”。 分布式爬虫架构1 使用队列,即生产者,消费都模式。 由于生产者将规则生成到队 ...

Tue Mar 24 19:34:00 CST 2015 1 8198
跟我一起数据挖掘(20)——网站日志挖掘

收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未 ...

Thu Mar 05 23:57:00 CST 2015 0 7866

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM