关于大数据中-----任务调度、资源调度

本文转载自查看原文 2019-09-02 20:19 679

1、任务调度

a、RDD Objects---->转换为DAG有向无环图

b、DAGScheduler---根据RDD之间的宽窄依赖切分Job，切分为Stage

c、Stage本质上就是---TaskSet,Stage就会以TaskSet形式传给TaskScheduler

d、TaskScheduler遍历TaskSet，分配给executor执行

|如果说executor中task执行失败，跟TaskScheduler申请重试3次，3次仍然失败

DAGScheduler重试重新发送TaskSet，默认会重试4次。如果仍然失败，宣告Stage执行失败

，也就是包含Stage的job宣告执行失败。

e、推测执行---表示一个spark job中，可能会存在某一些task执行缓慢，推测会启动

一个相同的task，选择先执行完的作为结果

|推测执行在spark中默认是关闭的

1、可能出现数据重复写入

2、集群奔溃。数据倾斜--task本身计算量大，耗时较长

2、spark的资源调度流程

master：管理整个集群的资源

Worker：每启动一个Worker都注册在Master上

a、当提交spark的程序时，main会创建driver进程

当执行到val sc=new SparkContext()---会默认创建两个对象DAGScheduler、

TaskScheduler对象。

b、TaskScheduler向Master发送一个请求，申请程序运行需要资源

c、maste根据TaskScheduler发送的请求，去每一个worker上查看其资源使用情况，

给资源充足的worker上发送一条信息。让其创建一个executor进程，是一个线程池

用来执行每一个task

d、所有的executor都向TaskScheduler反向注册，TaskScheduler中一个executor列表

e、任务调度---DAGScheduler切分job---分发TaskSet TaskScheduler

f、TaskScheduler遍历TaskSet，把每一个task分发最优的executor执行

注意：如果task执行失败，向TaskScheduler...(任务调度)

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark 资源调度及任务调度 Spark 资源调度与任务调度 [大数据之Yarn]——资源调度浅学 Spark中资源调度和任务调度 spark 图文详解:资源调度和任务调度 Spark Core_资源调度与任务调度详述 Spark在Yarn上的资源调度和任务调度资源任务调度算法实现（大数据云计算作业来的）大巧不工，袋鼠云正式开源大数据任务调度平台——Taier（太阿）！ kubernetes资源调度