原文:使用Spark进行搜狗日志分析实例——map join的使用

map join相对reduce join来说,可以减少在shuff阶段的网络传输,从而提高效率,所以大表与小表关联时,尽量将小表数据先用广播变量导入内存,后面各个executor都可以直接使用 结果展示: ...

2018-10-21 22:21 0 1204 推荐指数:

查看详情

使用Logstash进行日志分析

LogStash主要用于数据收集和分析方面,配合Elasticsearch,Kibana用起来很方便,安装教程google出来很多。 推荐阅读 Elasticsearch 权威指南 精通 Elasticsearch Kibana 中文指南 The Logstash Book ...

Fri Jan 16 02:34:00 CST 2015 28 32232
spark]使用spark进行hbase数据分析

【题外话】 感觉自己很沮丧。我自己认为,我的内心很纯净。 废话说了那么多,我想总结一下最近我学习spark的经验。 最近使用spark做了一个数据分析的项目。 项目采用的基础环境是:spark 1.6.0 hbase 0.98.17 hadoop2.5.2 项目的构建 ...

Fri Jul 01 18:25:00 CST 2016 0 5904
Spark使用spark进行K-means分析

由于思路比较简单,而且代码我写的很详细了,直接贴代码吧。Mark. /** * @autor phh * 相似度通常以对象到类质心的距离作为相似性的评价指标 * 算法流程如下: * 1 ...

Wed Jun 07 23:16:00 CST 2017 0 1550
Spark搜狗日志查询实战

1、下载搜狗日志文件: 地址:http://www.sogou.com/labs/resource/chkreg.php 2、利用WinSCP等工具将文件上传至集群。 3、创建文件夹,存放数据: 4、将搜狗日志数据移到(mv命令)3中创建的目录下,并解压 ...

Fri Dec 22 01:10:00 CST 2017 0 965
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM