花费 12 ms
Spark DataFrame写入HBase的常用方式

Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像 ...

Thu Mar 01 07:05:00 CST 2018 7 13376
rdd 宽依赖和窄依赖

Spark中RDD的高效与DAG图有着莫大的关系,   在DAG调度中需要对计算过程划分Stage,   而划分的依据就是就是RDD之间的依赖关系。   针对不同的转换函数,RDD之间的依赖关系分为窄 ...

Mon May 13 22:39:00 CST 2019 0 597
Yarn和mesos区别

参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ Yarn是Hadoop2的产物。提到这个问题就不得不说下 ...

Mon May 13 23:20:00 CST 2019 0 475

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM