【文章推荐】【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

原文：【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

spark . . spark初始化rdd的时候，需要读取文件，通常是hdfs文件，在读文件的时候可以指定最小partition数量，这里只是建议的数量，实际可能比这个要大比如文件特别多或者特别大时，也可能比这个要小比如文件只有一个而且很小时，如果没有指定最小partition数量，初始化完成的rdd默认有多少个partition是怎样决定的呢以SparkContext.textfile ...

2018-12-28 20:55 0 4784 推荐指数：

查看详情

【原创】大数据基础之Spark（1）Spark Submit即Spark任务提交过程

Spark2.1.1 一 Spark Submit本地解析 1.1 现象提交命令： spark-submit --master local[10] --driver-memory 30g --class app.package.AppClass app-1.0.jar 进程 ...

Spark快速大数据分析之RDD基础

Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala中任意类型的对象，甚至可以包含用户自定义的对象。用户可以使用两种方法创建RDD：读取一个外部数据集，或在 ...

【原创】大数据基础之Kudu（4）spark读写kudu

spark2.4.3+kudu1.9 1 批量读 2 批量写 3 单个读/条件读 4 单个写其他：newInsert/newUpdate/newDelete/newUpsert 5 错误定位如果apply之后发现修改 ...

【原创】大数据基础之Hive（5）hive on spark

hive 2.3.4 on spark 2.4.0 Hive on Spark provides Hive with the ability to utilize Apache Spark as its execution engine. set ...

【原创】大数据基础之Spark（2）Spark on Yarn：container memory allocation容器内存分配

spark 2.1.1 最近spark任务（spark on yarn）有一个报错 Diagnostics: Container [pid=5901,containerID=container_1542879939729_30802_01_000001] is running ...

【原创】大数据基础之SPARK（9）SPARK中COLLECT和TAKE实现原理

spark中要将计算结果取回driver，有两种方式：collect和take，这两种方式有什么差别？来看代码： org.apache.spark.rdd.RDD 可见collect是直接计算所有结果，然后将每个partition的结果变成array，然后再合并成一个array ...

【原创】大数据基础之Spark（3）Spark Thrift实现原理及代码实现

spark 2.1.1 一启动命令启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.apache.spark.deploy.SparkSubmit --class ...

【原创】大数据基础之Spark（8）Spark中Join实现原理

spark中join有两种，一种是RDD的join，一种是sql中的join，分别来看： 1 RDD join org.apache.spark.rdd.PairRDDFunctions join操作会返回CoGroupedRDD，CoGroupedRDD构造参数为rdd ...

原文：【原创】大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

相关推荐

相关标签