Spark任务调度

本文转载自查看原文 2017-06-04 18:25 1900 Spark 概念学习系列

　　不多说，直接上干货！

Spark任务调度

DAGScheduler

　　构建Stage—碰到shuffle就split

　　记录哪个RDD 或者Stage 输出被物化

　　重新提交shuffle 输出丢失的stage

　　将Taskset 传给底层调度器

　　本地性策略--- preferredLocations(p)

1.spark-cluster TaskScheduler
2.yarn-cluster YarnClusterScheduler
3.yarn-client YarnClientClusterScheduler

TaskScheduler

　　为每一个TaskSet 构建一个TaskSetManager 实例管理这个TaskSet 的生命周期

　　数据本地性决定每个Task 最佳位置(process-local, node-local, rack-local and then and any

　　提交taskset( 一组task) 到集群运行并监控

　　推测执行，碰到straggle 任务放到别的节点上重试

　　出现shuffle 输出lost 要报告fetch failed 错误

ScheduleBacked

　　实现与底层资源调度系统的交互(YARN，mesos等)

　　配合TaskScheduler实现具体任务执行所需的资源分配(核心接口receiveOffers)

　　详细过程

实例分析

val lines = ssc.textFile(args(1)) // 输入
val words = lines.flatMap(x =>x.split(" "))
words.cache() // 缓存
val wordCounts = words.map(x =>(x, 1) )
val red = wordCounts.reduceByKey( (a,b)=>{a + b} ， 8)
red.saveAsTextFile(“/root/Desktop/out” ， 8) // 行动

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark的任务调度 Spark 资源调度与任务调度 Spark 资源调度及任务调度 Spark 任务调度机制(转) spark任务调度和资源分配 Spark 任务调度机制 Spark核心作业调度和任务调度之DAGScheduler源码 Spark Core_资源调度与任务调度详述 Spark任务调度流程及调度策略分析 Spark在Yarn上的资源调度和任务调度