标签【跟我一起数据挖掘】

一文搞懂HMM（隐马尔可夫模型）

什么是熵(Entropy) 简单来说，熵是表示物质系统状态的一种度量，用它老表征系统的无序程度。熵越大，系统越无序，意味着系统结构和运动的不确定和无规则；反之，，熵越小，系统越有序，意味着具有确定和 ...

基于java的分布式爬虫

分类分布式网络爬虫包含多个爬虫，每个爬虫需要完成的任务和单个的爬行器类似，它们从互联网上下载网页，并把网页保存在本地的磁盘，从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载 ...

使用R画地图数据

用R画地图数据首先，从这里下载中国地图的GIS数据，这是一个压缩包，完全解压后包含三个文件（bou2_4p.dbf、bou2_4p.shp和bou2_4p.shx），将这三个文件解压到同一个目录下 ...

Spark简介 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的优点；但不同于Map ...

分布式爬虫技术架构

Spiderman Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等 ...

跟我一起ggplot2（1）

ggplot2 R的作图工具包，可以使用非常简单的语句实现非常复杂漂亮的效果。 qplot 加载qplot #1. 按color,size,shape的基本分类可视化 ...

众推平台架构——分布式爬虫

分布式爬虫架构经过新一轮的投票，项目的范围已经基本确定。大家决定全力以付，集中攻克“分布式爬虫”。分布式爬虫架构1 使用队列，即生产者，消费都模式。由于生产者将规则生成到队 ...

收集web日志的目的 Web日志挖掘是指采用数据挖掘技术，对站点用户访问Web服务器过程中产生的日志数据进行分析处理，从而发现Web用户的访问模式和兴趣爱好等，这些信息对站点建设潜在有用的可理解的未 ...

分布式缓存架构先看架构：图一用户通过访问http服务器，然后访问应用服务器资源， ...

什么是数据仓库？数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant ...