原文:【原创】大数据基础之Spark(5)Shuffle实现原理及代码解析

一 简介 Shuffle,简而言之,就是对数据进行重新分区,其中会涉及大量的网络io和磁盘io,为什么需要shuffle,以词频统计reduceByKey过程为例, serverA:partition : hello, , word, serverB:partition : hello, shuffle之后: serverA:partition : hello, , hello, serverB: ...

2018-12-21 18:54 0 615 推荐指数:

查看详情

原创大数据基础SPARK(9)SPARK中COLLECT和TAKE实现原理

spark中要将计算结果取回driver,有两种方式:collect和take,这两种方式有什么差别?来看代码: org.apache.spark.rdd.RDD 可见collect是直接计算所有结果,然后将每个partition的结果变成array,然后再合并成一个array ...

Fri Dec 21 22:56:00 CST 2018 0 1212
原创大数据基础之Hadoop(1)HA实现原理

有些工作只能在一台server上进行,比如master,这时HA(High Availability)首先要求部署多个server,其次要求多个server自动选举出一个active状态server, ...

Fri Jan 11 23:25:00 CST 2019 0 708
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM