花费 15 ms
【Spark篇】---Spark中广播变量和累加器

一、前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。 累机器相当于统筹大变量,常用于计数,统计。 二、具体 ...

Wed Feb 07 07:10:00 CST 2018 0 12538
【Spark篇】---SparkStream初始与应用

一、前述 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, Z ...

Fri Feb 09 22:46:00 CST 2018 0 7384
【Spark篇】---Spark中Action算子

一、前述 Action类算子也是一类算子(函数)叫做行动算子,如foreach,collect,count等。Transformations类算子是延迟执行,Action类算子是触发执行。一个app ...

Fri Feb 02 08:32:00 CST 2018 0 7377
【Spark篇】---Spark解决数据倾斜问题

一、前述 数据倾斜问题是大数据中的头号问题,所以解决数据清洗尤为重要,本文只针对几个常见的应用场景做些分析 。 二。具体方法 1、使用Hive ETL预处理数据 方案适用场景: ...

Mon Mar 05 05:06:00 CST 2018 0 6911
Spark算子篇 --Spark算子之aggregateByKey详解

一。基本介绍 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一个函数是初始值 3代表每次分完组之后的每个组的初始值。 seqFunc代表combine ...

Sun Jan 07 07:00:00 CST 2018 1 6807
【Spark篇】--Spark中的宽窄依赖和Stage的划分

一、前述 RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。 Spark中的Stage其实就是一组并行的任务,任务是一个个的task 。 二、具体细节 窄依赖 父R ...

Mon Feb 05 09:28:00 CST 2018 0 4611

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM