大數據Spark實時處理--架構分析

本文轉載自查看原文 2021-10-14 10:27 112 Spark

架構圖
1）日志采集：自定義一個日志服務
2）數據收集交換：使用Flume將日志服務數據收集過來，落在Kafka上
3）實時處理：基於Spark Streaming（SS）、Structured Streaming（SSS）來對接Kafka的數據
4）數據存儲：第3）步處理后的數據，Spark Streaming處理的數據存儲至HBase中，Structured Streaming處理的數據存儲至Redis
5）查詢API：頁面的請求通過API，即使用Spring Boot、Spring Data來查詢HBase和Redis里的數據，並把數據放置可視化里。在可視化里是通過Echarts來展示。也會使用到React來封裝Echarts。
6）整個項目的運行環境：產商雲主機、物理機、虛擬機

Spark和Kafka對接的offsets管理維護
1）首先，在Kafka集群里，做分區。
2）Kafka分區后，與Spark Streaming做對接
3）基於DStream，Spark Streaming可以進行一些處理，處理后將結果存儲下來。
4）處理的批次對應的offset是哪些呢？需要通過commit offsets存儲到HBase/Kafka/ZK/MySQL
5）如果作業掛掉/出現異常，機器重啟，在DStream處理時，應該從已經存儲過的offsets的HBase/Kafka/ZK/MySQL，往后進行操作，這樣才能保證數據是准確的。

項目架構V1版本
1）用戶---（問題1/2）---->LogServer----(source)--->Flume----(sink)--->Kafka Clauster (Topic)(實時)（問題3）------->Spark------->DB------->API------->UI
2）V1版本存在的問題1：實際上LogServer是由很多機器構成，這些機器有着不同的IP地址。不同用戶的操作數據，上報到LogServer中不同的機器上，還需要去關注LogServer中不同機器的IP地址嗎？當然不應再去關注LogServer相關信息。
3）V1版本存在的問題2：每一個用戶的操作數據和LogServer中的機器，不可能一一對應，所以這里缺少負載均衡。所以用戶的操作數據通過負載均衡，讓數據比較均衡的落在LogServer中每個機器上。
4）V1版本存在的問題3：離線處理及實時處理的數據源都是一樣的。Kafka是實時處理，當然也可以放入HDFS中進行離線處理。單層的Flume是存在隱患的，它沒有任何負載均衡和容錯性可言，一旦sink出問題，會影響整個流程的運轉。

項目架構V2版本
1）用戶------->Nginx Cluster------->LogServer----(source)--->Flume 1----(sink)--->Flume 2------->Kafka Clauster (Topic)(實時)------->Spark------->DB------->API------->UI
2）Nginx Cluster來完成負載均衡
3）Flume 2 進行聚合操作，相當於是容錯機制。如果第一套sink出問題了，采用第二套sink。做一個高可用的配置，使得第一個sink出問題，也能保障整個流程運轉正常。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據學習筆記（二）--實時處理架構大數據Spark實時處理--實時流處理1（Spark Streaming API） [文章]大數據實時處理：百分點實時計算架構和算法 Spark Streaming實時處理Kafka數據 Druid：一個用於大數據實時處理的開源分布式系統大數據架構之:Spark 大數據分析處理框架——離線分析（hive，pig，spark）、近似實時分析（Impala）和實時分析（storm、spark streaming）大數據 Spark 架構大數據的近實時分析系統架構 [轉]Flume+Kafka+Flink+Redis構建大數據實時處理系統：實時統計網站PV、UV展示