Spark Streaming 執行流程

本文轉載自查看原文 2014-08-30 13:32 2739 Spark

Spark Streaming 是基於spark的流式批處理引擎，其基本原理是把輸入數據以某一時間間隔批量的處理，當批處理間隔縮短到秒級時，便可以用於處理實時數據流。

本節描述了Spark Streaming作業的執行流程。

圖1 Spark Streaming作業的執行流程

具體流程：

客戶端提交作業后啟動Driver，Driver是park作業的Master。
每個作業包含多個Executor，每個Executor以線程的方式運行task，Spark Streaming至少包含一個receiver task。
Receiver接收數據后生成Block，並把BlockId匯報給Driver，然后備份到另外一個Executor上。
ReceiverTracker維護Reciver匯報的BlockId。
Driver定時啟動JobGenerator，根據Dstream的關系生成邏輯RDD，然后創建Jobset，交給JobScheduler。
JobScheduler負責調度Jobset，交給DAGScheduler，DAGScheduler根據邏輯RDD，生成相應的Stages，每個stage包含一到多個task。
TaskScheduler負責把task調度到Executor上，並維護task的運行狀態。
當tasks，stages，jobset完成后，單個batch才算完成。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spark streaming的執行流程 Spark任務執行流程 Spark任務提交方式和執行流程 Spark作業執行流程源碼解析 Spark集群的任務提交執行流程自己編寫的spark代碼執行流程 Spark SQL底層執行流程詳解 Spark-作業執行流程概述 spark-sql執行流程分析 Spark架構與作業執行流程簡介