【文章推荐】【原创】大数据基础之Spark（3）Spark Thrift实现原理及代码实现

原文：【原创】大数据基础之Spark（3）Spark Thrift实现原理及代码实现

spark . . 一启动命令启动spark thrift命令 SPARK HOME sbin start thriftserver.sh 然后会执行 org.apache.spark.deploy.SparkSubmit class org.apache.spark.sql.hive.thriftserver.HiveThriftServer 二启动过程及代码分析 hive thrift代 ...

2018-12-18 15:54 0 1372 推荐指数：

查看详情

【原创】大数据基础之Spark（5）Shuffle实现原理及代码解析

一简介 Shuffle，简而言之，就是对数据进行重新分区，其中会涉及大量的网络io和磁盘io，为什么需要shuffle，以词频统计reduceByKey过程为例， serverA：partition1: (hello, 1), (word, 1)serverB：partition2 ...

【原创】大数据基础之Spark（8）Spark中Join实现原理

spark中join有两种，一种是RDD的join，一种是sql中的join，分别来看： 1 RDD join org.apache.spark.rdd.PairRDDFunctions join操作会返回CoGroupedRDD，CoGroupedRDD构造参数为rdd ...

【原创】大数据基础之SPARK（9）SPARK中COLLECT和TAKE实现原理

spark中要将计算结果取回driver，有两种方式：collect和take，这两种方式有什么差别？来看代码： org.apache.spark.rdd.RDD 可见collect是直接计算所有结果，然后将每个partition的结果变成array，然后再合并成一个array ...

【原创】大数据基础之Hadoop（1）HA实现原理

有些工作只能在一台server上进行，比如master，这时HA（High Availability）首先要求部署多个server，其次要求多个server自动选举出一个active状态server， ...

【原创】大数据基础之Hive（5）hive on spark

hive 2.3.4 on spark 2.4.0 Hive on Spark provides Hive with the ability to utilize Apache Spark as its execution engine. set ...

【原创】大数据基础之Kudu（4）spark读写kudu

spark2.4.3+kudu1.9 1 批量读 2 批量写 3 单个读/条件读 4 单个写其他：newInsert/newUpdate/newDelete/newUpsert 5 错误定位如果apply之后发现修改 ...

大数据--Spark原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： 1.运行 ...

【原创】大数据基础之Spark（1）Spark Submit即Spark任务提交过程

Spark2.1.1 一 Spark Submit本地解析 1.1 现象提交命令： spark-submit --master local[10] --driver-memory 30g --class app.package.AppClass app-1.0.jar 进程 ...

原文：【原创】大数据基础之Spark（3）Spark Thrift实现原理及代码实现

相关推荐

相关标签