原文:Apache Spark源碼走讀之5 -- DStream處理的容錯性分析

歡迎轉載,轉載請注明出處,徽滬一郎,謝謝。 在流數據的處理過程中,為了保證處理結果的可信度 不能多算,也不能漏算 ,需要做到對所有的輸入數據有且僅有一次處理。在Spark Streaming的處理機制中,不能多算,比較容易理解。那么它又是如何作到即使數據處理結點被重啟,在重啟之后這些數據也會被再次處理呢 環境搭建 為了有一個感性的認識,先運行一下簡單的Spark Streaming示例。首先確認已 ...

2014-05-02 19:05 1 5253 推薦指數:

查看詳情

Apache Spark源碼走讀之4 -- DStream實時流數據處理

歡迎轉載,轉載請注明出處,徽滬一郎。 Spark Streaming能夠對流數據進行近乎實時的速度進行數據處理。采用了不同於一般的流式數據處理模型,該模型使得Spark Streaming有非常高的處理速度,與storm相比擁有更高的吞能力。 本篇簡要分析Spark Streaming的處理 ...

Sat Apr 26 05:22:00 CST 2014 0 7214
Apache Spark源碼走讀之15 -- Standalone部署模式下的容錯分析

歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本文就standalone部署方式下的容錯性問題做比較細致的分析,主要回答standalone部署方式下的包含哪些主要節點,當某一類節點出現問題時,系統是如何處理的。 Standalone部署的節點組成 介紹Spark的資料中對於RDD ...

Wed Jun 18 05:51:00 CST 2014 2 3415
Spark Streaming源碼分析DStream

A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous sequence of RDDs (of the same type) representing ...

Fri Mar 07 02:15:00 CST 2014 0 2549
Apache Spark源碼走讀之6 -- 存儲子系統分析

歡迎轉載,轉載請注明出處,徽滬一郎。 楔子 Spark計算速度遠勝於Hadoop的原因之一就在於中間結果是緩存在內存而不是直接寫入到disk,本文嘗試分析Spark中存儲子系統的構成,並以數據寫入和數據讀取為例,講述清楚存儲子系統中各部件的交互關系。 存儲子系統概覽 上圖是Spark ...

Thu May 08 21:37:00 CST 2014 2 5501
Apache Spark源碼走讀之7 -- Standalone部署方式分析

歡迎轉載,轉載請注明出處,徽滬一郎。 楔子 在Spark源碼走讀系列之2中曾經提到Spark能以Standalone的方式來運行cluster,但沒有對Application的提交與具體運行流程做詳細的分析,本文就這些問題做一個比較詳細的分析,並且對在standalone模式下如何實現HA進行 ...

Mon May 12 20:09:00 CST 2014 0 6804
Apache Spark源碼走讀之9 -- Spark源碼編譯

歡迎轉載,轉載請注明出處,徽滬一郎。 概要 本來源碼編譯沒有什么可說的,對於java項目來說,只要會點maven或ant的簡單命令,依葫蘆畫瓢,一下子就ok了。但到了Spark上面,事情似乎不這么簡單,按照spark officical document上的來做,總會出現這樣或那樣的編譯 ...

Sat May 17 00:44:00 CST 2014 4 5352
Apache Spark源碼走讀之21 -- WEB UI和Metrics初始化及數據更新過程分析

歡迎轉載,轉載請注明出處,徽滬一郎. 概要 WEB UI和Metrics子系統為外部觀察監測Spark內部運行情況提供了必要的窗口,本文將簡略的過一下其內部代碼實現。 WEB UI 先上圖感受一下spark webui 假設當前已經在本機運行standalone cluster模式,輸入 ...

Tue Aug 05 18:12:00 CST 2014 0 3579
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM