标签【大数据生态圈】

一.相关性分析　　1.简介　　　　计算两个系列数据之间的相关性是统计中的常见操作。在spark.ml中提供了很多算法用来计算两两的相关性。目前支持的相关性算法是Pearson和Spearman ...

一.事件驱动　　提到事件驱动应用，首先讲什么是事件驱动的应用程序？事件驱动的应用程序是有状态的应用程序，它从一个或多个事件中提取事件，并通过触发计算，状态更新或外部操作来对传入的事件做出反应。 ...

一.安装Linux 　　需要：3台CentOS7虚拟机　　　　注意：　　　　虚拟机的网络设置为NAT模式，NAT模式可以在断网的情况下连接上虚拟机而桥架模式不行！二.设置静态IP ...

Flink集群模式部署及案例执行

一.软件要求　　Flink在所有类UNIX的环境【例如linux，mac os x和cygwin】上运行，并期望集群由一个主节点和一个或多个工作节点组成。在开始设置系统之前，确保在每个节点上都安 ...

一.分析　　Spark提供了非常丰富的算子，可以实现大部分的逻辑处理，例如，要实现行转列，可以用hiveContext中支持的concat_ws(',', collect_set('字段'))实现 ...

一.分区策略　　　　GraphX采用顶点分割的方式进行分布式图分区。GraphX不会沿着边划分图形，而是沿着顶点划分图形，这可以减少通信和存储的开销。从逻辑上讲，这对应于为机器分配边并允许顶点 ...

一.在使用中出现的问题二.执行结果　　　　从结果中可以看出，sortBy和sortByKey都没有实现排序的功能【虽然它们顺序已经改变】。这是怎么回事？　　　　具体原 ...

HBase之WAL机制

一.简介　　在分布式环境下，用户必须要考虑系统出错的情形，例如，Region服务器发生故障时， MemStore 缓存中还没有被写入文件的数据会全部丢失。因此，HBase 采用 HLog 来保证系 ...

Spark GraphX图计算快速入门

一.概述 GraphX是Spark中用于图形和图形并行计算的新组件。在较高的层次上，GraphX 通过引入新的Graph抽象来扩展Spark RDD：一个有向多重图，其属性附加到每个顶点和边上。 ...

一.概述　　Apache Flink 是一个框架和分布式处理引擎，用于对无限制和有限制的数据流进行有状态的计算。Flink被设计为可以在所有常见的集群环境中运行，以内存速度和任何规模的计算。　 ...