标签【SPARK】 - 码上欢乐

一.spark 分区 partition的理解： spark中是以vcore级别调度task的。二.coalesce 与 repartition的区别（我们下面说的coalesce都默认sh ...

向hadoop导入文件，报错 .... There are 0 datanode(s) running and no node(s) are excluded in this operation. ...

spark 稠密向量和稀疏向量

Spark mlib的本地向量有两种： DenseVctor ：稠密向量其创建方式 Vector.dense(数据) SparseVector ：稀疏向量其创建方式有两种： ...

spark rdd 宽窄依赖理解

== 转载 == http://blog.csdn.net/houmou/article/details/52531205 Spark中RDD的高效与DAG图有着莫大的关系，在DAG调 ...

SPARK调优之并行度设置

操作场景并行度控制任务的数量，影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到最优查看CPU使用情况和内存占用情况，当任 ...

aggregate 和 treeAggregate 的对比

...

SparkStreaming对接rabbitMQ

/** * SparkStreaming对接rabbitmq java代码 */public class SparkConsumerRabbit { public static void main(S ...

spark 修改默认log4j.properties 配置

说明:用户 xxx.jar 中的resources/log4j.properties 会覆盖集群配置，如果用户无resources/log4j.properties 那么加载 --fil ...

要完成用SPARK将hadoop的文件数据转换为hive的表。首先，要安装好hadoop，hive，spark；其次，文本数据是结构化的文本，可以直接映射到表的如csv格式的。我们的文本数 ...

org.apache.spark.logging类报错

一，1 在使用spark读取kafka数据时，当spark升级到2.0之后，出现如上问题：之前遇到了，当时在工程里面添加了org.apache.spark.Logging类，能够运行。但是在后 ...