Storm DRPC實現機制分析


DRPC是建立在Storm基本概念(Topology、Spout、Bolt、Stream等)之上的高層抽象,個人理解它的目標是在Storm 集群之上提供一種分布式的RPC框架,以便能夠利用Storm快速的實現RPC請求的分布式計算過程,即發起一次RPC請求,多個worker計算節點參與計算,最后匯總后將計算結果返回給客戶端。

DRPC實現框架

Storm中使用Thrift作為其RPC框架,同樣地,DRPC的實現也是構建在Thrift協議之上,相關的源碼文件如下:

1. storm-core/src/storm.thrift,定義了Storm中實現的Thrift協議,其中有兩個service是與DRPC相關的:DistributedRPC和DistributedRPCInvocations,它們的接口定義如下:

  • DistributedRPC.Iface:定義了execute方法,用於客戶端發起RPC請求;
  • DistributedRPCInvocations.Iface:定義了fetchRequest、failRequest、result方法,分別用於獲取RPC請求、將RPC請求標記為失敗、返回RPC請求的處理結果。

2. storm-core/src/clj/backtype/storm/daemon/drpc.clj,實現了DRPC的Thrift服務端(即DRPC Server),使用Clojure語言實現。

3. storm-core/src/jvm/backtype/storm/generated/DistributedRPC.java 和storm-core/src/jvm/backtype/storm/utils/DRPCClient.java,作為RPC客戶端,實現了 DistributedRPC.Iface接口,用於客戶端向DRPC Server發起RPC請求。

4. storm-core/src/jvm/backtype/storm/generated /DistributedRPCInvocations.java和storm-core/src/jvm/backtype/storm/drpc /DRPCInvocationsClient.java,作為RPC客戶端,實現了DistributedRPCInvocations.Iface接 口,用於DRPC Topology觸發執行DRPC Request並返回結果給DRPC Server。

下圖所示是Storm DRPC的整體實現情況。從中可以看出,對於DRPC Server來說,DRPC Client和DRPC Topology都是Thrift的客戶端,只是分別調用了不同的Thrift服務而已。

Storm DRPC實現架構

1. 首先,前提是集群上已經運行了DRPC Topology,每個DRPC服務注冊了一個RPC方法,包含方法名稱和參數形式(上圖中假設Topology已經啟動運行);

2. 接下來是處理流程,客戶端通過DRPCClient調用execute方法,發起一次RPC調用給DRPC Server,目前受限的是只支持一個String類型的DRPC方法調用參數,社區中正在討論對此進行擴展;

3. 然后,DRPC Server中有一個handler-server pool,用於接收RPC請求,並為每個請求生成唯一的request id,生成一條DRPC Request記錄,並放到request queue中等待被消費(計算);

4. 最后,DRPC Topology中的相關模塊(DRPC Spout、ReturnResults Bolt,后面會介紹)通過invoke-server pool從request queue中取出該方法的RPC請求,並將處理結果(成功/失敗)返回給DRPC Server,直到最終返回給阻塞着的DRPC Client。

DRPC拓撲實現細節

下面以storm-starter項目中的ReachTopology為例,詳細介紹Storm中通過LinearDRPCTopologyBuilder構造的DRPC Topology的數據流關系:

Storm DRPC拓撲數據流

其中,DRPC Topology由1個DRPCSpout、1個Prepare-Request Bolt、若干個User Bolts(即用戶通過LinearDRPCTopologyBuilder添加的Bolts)、1個JoinResult Bolt和1個ReturnResults Bolt組成。除了User Bolts以外,其他的都是由LinearDRPCTopologyBuilder內置添加到Topology中的。接下來,我們從數據流的流動關系來 看,這些Spout和Bolts是如何工作的:

1. DRPCSpout中維護了若干個DRPCInvocationsClient,通過fetchRequest方法從DRPC Server讀取需要提交到Topology中計算的RPC請求,然后發射一條數據流給Prepare-Request Bolt:<”args”, ‘”return-info”>,其中args表示RPC請求的參數,而return-info中則包含了發起這次RPC請求的RPC Server信息(host、port、request id),用於后續在ReturnResults Bolt中返回計算結果時使用。

2. Prepare-Request Bolt接收到數據流后,會新生成三條數據流:

  • <”request”, ”args”>:發給用戶定義的User Bolts,提取args后進行DRPC的實際計算過程;
  • <”request”, ”return-info”>:發給JoinResult Bolt,用於和User Bolts的計算結果做join以后將結果返回給客戶端;
  • <”request”>:在用戶自定義Bolts實現了FinishedCallback接口的情況下,作為ID流發給用戶定義的最后一級Bolt,用於判斷batch是否處理完成。

3. User Bolts按照用戶定義的計算邏輯,以及RPC調用的參數args,進行業務計算,並最終輸出一條數據流給JoinResult Bolt:<”request”, ”result”>。

4. JoinResult Bolt將上游發來的<”request”, ”return-info”>和<”request”, ”result”>兩條數據流做join,然后輸出一條新的數據流給ReturnResults Bolt: <”result”, ”return-info”>。

5. ReturnResults Bolt接收到數據流后,從return-info中提取出host、port、request id,根據host和port生成DRPCInvocationsClient對象,並調用result方法將request id及result返回給DRPC Server,如果result方法調用成功,則對tuple進行ack,否則對tuple進行fail,並最終在DRPCSpout中檢測到tuple 失敗后,調用failRequest方法通知DRPC Server該RPC請求執行失敗。

DRPC整體工作流程

最后,將以上兩個小節的內容合並起來就可以看到Storm中DRPC的整體工作流程了,如下圖所示:

Storm DRPC整體處理流程

參考資料鏈接

1. https://github.com/apache/incubator-storm

2. https://github.com/nathanmarz/storm-starter


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM