花费 7 ms
SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

【前言:如果你经常使用Spark SQL进行数据的处理分析,那么对笛卡尔积的危害性一定不陌生,比如大量占用集群资源导致其他任务无法正常执行,甚至导致节点宕机。那么都有哪些情况会产生笛卡尔积,以及如何事 ...

Tue Mar 16 19:30:00 CST 2021 0 834
Spark SQL 小文件问题处理

在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼 ...

Thu Dec 17 17:27:00 CST 2020 0 1066
spark RDD 的map与flatmap区别说明

HDFS到HDFS过程 看看map 和flatmap的位置 Flatmap 和map 的定义 map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。 flatmap() ...

Fri May 29 07:04:00 CST 2020 0 1119
自适应查询执行:在运行时提升Spark SQL执行性能

前言 Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO。但是在这些版本中,Spark SQL执行计划一旦确定就不会改变。由于缺乏或者 ...

Mon Dec 21 17:22:00 CST 2020 0 661
重要 | Spark和MapReduce的对比,不仅仅是计算模型?

【前言:笔者将分上下篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spark"之类的问题的几个核心归纳点 ...

Wed Nov 04 19:47:00 CST 2020 0 745
重要 | Spark分区并行度决定机制

最近经常有小伙伴在本公众号留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.defaul ...

Thu Nov 19 17:06:00 CST 2020 0 691
Spark闭包 | driver & executor程序代码执行

Spark中的闭包 闭包的作用可以理解为:函数可以访问函数外部定义的变量,但是函数内部对该变量进行的修改,在函数外是不可见的,即对函数外源变量不会产生影响。 其实,在学习Spark时,一个比较 ...

Mon Nov 23 17:15:00 CST 2020 0 657
详解MapReduce(Spark和MapReduce对比铺垫篇)

本来笔者是不打算写MapReduce的,但是考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和MapReduce的对比做铺垫,笔 ...

Wed Oct 28 22:11:00 CST 2020 0 590

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM