RDD的運行機制

本文轉載自查看原文 2019-07-02 08:32 606

1. RDD 的設計與運行原理

Spark 的核心是建立在統一的抽象 RDD 之上，基於 RDD 的轉換和行動操作使得 Spark 的各個組件可以無縫進行集成，從而在同一個應用程序中完成大數據計算任務。

在實際應用中，存在許多迭代式算法和交互式數據挖掘工具，這些應用場景的共同之處在於不同計算階段之間會重用中間結果，即一個階段的輸出結果會作為下一個階段的輸入。而 Hadoop 中的 MapReduce 框架都是把中間結果寫入到 HDFS 中，帶來了大量的數據復制、磁盤 IO 和序列化開銷，並且通常只支持一些特定的計算模式。而 RDD 提供了一個抽象的數據架構，從而讓開發者不必擔心底層數據的分布式特性，只需將具體的應用邏輯表達為一系列轉換處理，不同 RDD 之間的轉換操作形成依賴關系，可以實現管道化，從而避免了中間結果的存儲，大大降低了數據復制、磁盤 IO 和序列化開銷。

1.1. RDD 概念

一個 RDD 就是一個分布式對象集合，提供了一種高度受限的共享內存模型，其本質上是一個只讀的分區記錄集合，不能直接修改。每個 RDD 可以分成多個分區，每個分區就是一個數據集片段，並且一個 RDD 的不同分區可以保存到集群中不同的節點上，從而可以在集群中的不同節點上進行並行計算。

RDD 提供了一組豐富的操作以支持常見的數據運算，分為“行動”（Action）和“轉換”（Transformation）兩種類型，前者用於執行計算並指定輸出的形式，后者指定 RDD 之間的相互依賴關系。RDD 提供的轉換接口都非常簡單，都是類似 map 、filter 、groupBy 、join 等粗粒度的數據轉換操作，而不是針對某個數據項的細粒度修改。因此，RDD 比較適合對於數據集中元素執行相同操作的批處理式應用，而不適合用於需要異步、細粒度狀態的應用，比如 Web 應用系統、增量式的網頁爬蟲等。

RDD 的典型的執行過程如下：

讀入外部的數據源（或者內存中的集合）進行 RDD 創建；
RDD 經過一系列的 “轉換” 操作，每一次都會產生不同的 RDD，供給下一個轉換使用；
最后一個 RDD 經過 “行動” 操作進行處理，並輸出指定的數據類型和值。
RDD 采用了惰性調用，即在 RDD 的執行過程中，所有的轉換操作都不會執行真正的操作，只會記錄依賴關系，而只有遇到了行動操作，才會觸發真正的計算，並根據之前的依賴關系得到最終的結果。

RDD的運行機制RDD的運行機制

下面以一個實例來描述 RDD 的實際執行過程，如下圖所示，開始從輸入中創建了兩個 RDD，分別是 A 和 C，然后經過一系列的轉換操作，最終生成了一個 F，這也是一個 RDD。注意，這些轉換操作的執行過程中並沒有執行真正的計算，基於創建的過程也沒有執行真正的計算，而只是記錄的數據流向軌跡。當 F 執行了行為操作並生成輸出數據時，Spark 才會根據 RDD 的依賴關系生成有向無環圖（DAG），並從起點開始執行真正的計算。正是 RDD 的這種惰性調用機制，使得轉換操作得到的中間結果不需要保存，而是直接管道式的流入到下一個操作進行處理。

RDD的運行機制RDD的運行機制

1.2. RDD 特性

總體而言，Spark 采用 RDD 以后能夠實現高效計算的主要原因如下：

高效的容錯性。在 RDD 的設計中，只能通過從父 RDD 轉換到子 RDD 的方式來修改數據，這也就是說我們可以直接利用 RDD 之間的依賴關系來重新計算得到丟失的分區，而不需要通過數據冗余的方式。而且也不需要記錄具體的數據和各種細粒度操作的日志，這大大降低了數據密集型應用中的容錯開銷。

中間結果持久化到內存。數據在內存中的多個 RDD 操作之間進行傳遞，不需要在磁盤上進行存儲和讀取，避免了不必要的讀寫磁盤開銷；

存放的數據可以是 Java 對象，避免了不必要的對象序列化和反序列化開銷。

1.3. RDD 之間的依賴關系

RDD 中的不同的操作會使得不同 RDD 中的分區會產生不同的依賴關系，主要分為窄依賴（Narrow Dependency）與寬依賴（Wide Dependency）。其中，窄依賴表示的是父 RDD 和子 RDD 之間的一對一關系或者多對一關系，主要包括的操作有 map、filter、union 等；而寬依賴則表示父 RDD 與子 RDD 之間的一對多關系，即一個父 RDD 轉換成多個子 RDD，主要包括的操作有 groupByKey、sortByKey 等。

RDD的運行機制RDD的運行機制

對於窄依賴的 RDD，可以以流水線的方式計算所有父分區，不會造成網絡之間的數據混合。對於寬依賴的 RDD，則通常伴隨着 Shuffle 操作，即首先需要計算好所有父分區數據，然后在節點之間進行 Shuffle。因此，在進行數據恢復時，窄依賴只需要根據父 RDD 分區重新計算丟失的分區即可，而且可以並行地在不同節點進行重新計算。而對於寬依賴而言，單個節點失效通常意味着重新計算過程會涉及多個父 RDD 分區，開銷較大。此外，Spark 還提供了數據檢查點和記錄日志，用於持久化中間 RDD，從而使得在進行失敗恢復時不需要追溯到最開始的階段。在進行故障恢復時，Spark 會對數據檢查點開銷和重新計算 RDD 分區的開銷進行比較，從而自動選擇最優的恢復策略。

1.4. 階段的划分

Spark 通過分析各個 RDD 的依賴關系生成了 DAG ，再通過分析各個 RDD 中的分區之間的依賴關系來決定如何划分階段，具體划分方法是：在 DAG 中進行反向解析，遇到寬依賴就斷開，遇到窄依賴就把當前的 RDD 加入到當前的階段中；將窄依賴盡量划分在同一個階段中，可以實現流水線計算。例如在下圖中，首先根據數據的讀取、轉化和行為等操作生成 DAG。然后在執行行為操作時，反向解析 DAG，由於從 A 到 B 的轉換和從 B、F 到 G 的轉換都屬於寬依賴，則需要從在寬依賴處進行斷開，從而划分為三個階段。把一個 DAG 圖划分成多個 “階段” 以后，每個階段都代表了一組關聯的、相互之間沒有 Shuffle 依賴關系的任務組成的任務集合。每個任務集合會被提交給任務調度器（TaskScheduler）進行處理，由任務調度器將任務分發給 Executor 運行。

RDD的運行機制RDD的運行機制

1.5. RDD 運行過程

通過上述對 RDD 概念、依賴關系和階段划分的介紹，結合之前介紹的 Spark 運行基本流程，這里再總結一下 RDD 在 Spark 架構中的運行過程（如下圖所示）：

創建 RDD 對象；
SparkContext 負責計算 RDD 之間的依賴關系，構建 DAG；
DAGSchedule 負責把 DAG 圖反向解析成多個階段，每個階段中包含多個任務，每個任務會被任務調度器分發給工作節點上的 Executor 上執行。
RDD的運行機制RDD的運行機制

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Java的運行機制 MVC運行機制談談java的運行機制 ExceptionHandler運行機制分析 Presto 運行機制簡介 js代碼的運行機制 Debian 自動運行機制一文搞懂jsBridge的運行機制從hello world 說程序運行機制 JS堆棧內存的運行機制