花费 40 ms
spark教程(八)-SparkSession

spark 有三大引擎,spark core、sparkSQL、sparkStreaming, spark core 的关键抽象是 SparkContext、RDD; SparkSQL 的关键抽象 ...

Wed Dec 04 22:29:00 CST 2019 0 2520
spark教程-Pyspark On Yarn 的模块依赖问题

原理简述 Yarn 模式是把资源统一交给 Yarn 集群来管理,其优点在于实现了 application 的多样性,如 MapReduce 程序、HBase 集群、Storm 集群、spark 集群 ...

Wed Dec 25 22:04:00 CST 2019 1 4451
spark教程(一)-集群搭建

spark 简介 建议先阅读我的博客 大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 h ...

Wed Oct 02 19:54:00 CST 2019 0 2023
spark调优篇-数据倾斜(汇总)

数据倾斜 为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜; 而是指 shuffle 过程中产生的数据倾斜,由于 ...

Thu Dec 19 00:08:00 CST 2019 0 4219
spark调优篇-oom 优化(汇总)

spark 之所以需要调优,一是代码执行效率低,二是经常 OOM 内存溢出 内存溢出无非两点: 1. Driver 内存不够 2. Executor 内存不够 Driver 内存不够 ...

Fri Dec 20 01:46:00 CST 2019 0 802
spark教程(四)-SparkContext 和 RDD 算子

SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点; 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 Spa ...

Fri Oct 18 22:44:00 CST 2019 0 815
spark调优篇-spark on yarn web UI

spark on yarn 的执行过程在 yarn RM 上无法直接查看,即 http://192.168.10.10:8088,这对于调试程序很不方便,所以需要手动配置 配置方法 1. 配 ...

Sun Dec 15 01:24:00 CST 2019 0 493

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM