Spark工作機制

主要模塊

Spark應用提交后經歷了一系列的轉換,最后成為Task在每個節點上執行.

每個任務對應相應的一個數據塊,使用用戶定義的函數處理數據塊.

Spark實現了分布式計算和任務處理,並實現了任務的分發,跟蹤,執行等工作.最終聚合結果,完成Spark應用的計算.

對RDD的塊管理通過BlockManger完成.BlockManager將數據抽象為數據塊,在內存或者磁盤進行存儲,如果數據不在本節點,則還可以通過遠端節點復制到本機進行計算.

Application:用戶自定義的Spark程序,用戶提交后,Spark為App分配資源,將程序轉換並執行
Driver Program:運行Application的main()創建並創建SparkContext
RDD Graph:RDD是Spark的核心結構,當RDD遇到Action算子時,將之前的所有算子形成一個DAG,也就是RDD Graph.再在Spark中轉化為Job,提交到集群執行.一個App中可以包含多個Job.
Job:一個RDD Graph觸發的作業,往往由Spark Action算子觸發.在SparkContext中通過runJob方法向Saprk提交Job.
Stage:每個Job會根據RDD的寬依賴關系唄切分很多Stage,每個Stage中包含一組相同的Task,這一組Task也叫TaskSet.
Task:一個分區對應一個Task,Task執行RDD中對應Stage中包含的算子.Task被封裝好后放入Executor的線程池中執行.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark checkpoint機制簡述大數據學習筆記——Spark工作機制以及API詳解簡述 LoadRunner 的工作原理？簡述DDOS攻擊的工作原理 Ajax的工作流程簡述 Spark緩存機制簡述OC中內存管理機制。 Kafka學習之Kafka選舉機制簡述【Android】LMK 工作機制網絡 IO 工作機制