Flume+Kafka+Spark Streaming實現大數據實時流式數據采集


大數據實時流式數據處理是大數據應用中最為常見的場景,與我們的生活也息息相關,以手機流量實時統計來說,它總是能夠實時的統計出用戶的使用的流量,在第一時間通知用戶流量的使用情況,並且最為人性化的為用戶提供各種優惠的方案,如果采用離線處理,那么等到用戶流量超標了才通知用戶,這樣會使得用戶體驗滿意度降低,這也是這幾年大數據實時流處理的進步,淡然還有很多應用場景。因此Spark Streaming應用而生,不過對於實時我們應該准確理解,需要明白的一點是Spark Streaming不是真正的實時處理,更應該成為准實時,因為它有延遲,而真正的實時處理Storm更為適合,最為典型場景的是淘寶雙十一大屏幕上盈利額度統計,在一般實時度要求不太嚴格的情況下,Spark Streaming+Flume+Kafka是大數據准實時數據采集的最為可靠並且也是最常用的方案,大數據實時流式數據采集的流程圖如下所示:

 

 


在本篇文章中使用Flume+Kafka+Spark Streaming具體實現大數據實時流式數據采集的架構圖如下:

 

 


轉發請標明原文地址:原文地址

對Flume,Spark Streaming,Kafka的配置如有任何問題請參考筆者前面的文章:

Flume跨服務器采集數據

Spark Streaming集成Kafka的兩種方式

Kafka的簡單使用以及原理

開發環境、工具:

Linux操作系統,JDK環境,SCALA環境、CDH5版本軟件
Spark
Kafka_2.10-0.8.2.1
Flume-1.5.0-cdh5.3.6-bin
Zookeeper-3.4.5
————————————————
版權聲明:本文為CSDN博主「不清不慎」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_37142346/article/details/81140618


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM