【文章推荐】使用Spark进行搜狗日志分析实例——map join的使用

map join相对reduce join来说，可以减少在shuff阶段的网络传输，从而提高效率，所以大表与小表关联时，尽量将小表数据先用广播变量导入内存，后面各个executor都可以直接使用结果展示： ...

2018-10-21 22:21 0 1204 推荐指数：

运行结果：搜狗日志下载地址：http://www.sogou.com/labs/resource/q.php ...

运行结果： ...

使用Logstash进行日志分析

LogStash主要用于数据收集和分析方面，配合Elasticsearch，Kibana用起来很方便，安装教程google出来很多。推荐阅读 Elasticsearch 权威指南精通 Elasticsearch Kibana 中文指南 The Logstash Book ...

一：使用sparksql开发 1.sparksql开发的两种方式　　HQL：SQL语句开发　　　　eq : sqlContext.sql("xxxx") 　　DSL : sparkSql中DataFrame的API调用方式　　　　eq：val df=sqlContext.xxx ...

spark]使用spark进行hbase数据分析

【题外话】感觉自己很沮丧。我自己认为，我的内心很纯净。废话说了那么多，我想总结一下最近我学习spark的经验。最近使用spark做了一个数据分析的项目。项目采用的基础环境是：spark 1.6.0 hbase 0.98.17 hadoop2.5.2 项目的构建 ...

【Spark】使用spark进行K-means分析

由于思路比较简单，而且代码我写的很详细了，直接贴代码吧。Mark. /** * @autor phh * 相似度通常以对象到类质心的距离作为相似性的评价指标 * 算法流程如下： * 1 ...

Spark之搜狗日志查询实战

1、下载搜狗日志文件：地址：http://www.sogou.com/labs/resource/chkreg.php 2、利用WinSCP等工具将文件上传至集群。 3、创建文件夹，存放数据： 4、将搜狗日志数据移到（mv命令）3中创建的目录下，并解压 ...