大數據典型應用場景


大數據離線分析場景

通常是指對海量數據進分析和處理,形成結果數據,供下一步數據應用使用。離線處理對處理時間要求不高,但是所處理數據量較大,占用計算存儲資源較多,通常通過MR或者Spark作業或者SQL作業實現。離線分析系統架構中以HDFS分布式存儲軟件為數據底座,計算引擎以基於MapReduce的Hive和基於Spark的SparkSQL為主。

 

 

大數據實時檢索場景 

 提供可彈性擴展、低時延、高吞吐的高性能計算資源,支持業界主流的實時分析業務平台,結合大帶寬、支持多種協議的對象存儲服務,提升實時分析業務整體資源利用率。

 

 

 

 

大數據實時流處理場景

常指對實時數據源進行快速分析,迅速觸發下一步動作的場景。實時數據對分析處理速度要求極高,數據處理規模巨大,對CPU和內存要求很高,但是通常數據不落地,對存儲量要求不高。實時處理,通常通過Storm、Spark Streaming或者Flink任務實現。數據采集通過分布式消息系統Kafka實時發送到分布式流計算引擎Flink、Storm、Spark Streaming進行數據處理,結果存儲Redis為上層業務提供緩存。

 

 

@摘自【華為鯤鵬雲】


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM