spark-streaming對接kafka的兩種方式

本文轉載自查看原文 2020-01-03 13:24 735 Spark

spark-streaming對接kafka有兩種方式：
1.基於receiver的方式，屬於高級API，簡單但是效率低，容易丟失數據（可以設置WAL）。
它的原理是：receiver從kafka拉取數據存儲到executor的內存中，spark-streaming啟動job處理數據。
偏移量保存在zookeeper中。

2.基於Direct的方式
屬於低級API，效率高。
executor直接對接kafka的partition,觸發action后，周期性地讀取topic分區指定offset的數據，生成batch運算。

優點：
簡言之，省去了receiver，降低資源消耗，提高性能。
1.簡化並行讀寫：Spark會創建和kafka partition數量一致的RDD partition,並且並行化從kafka中讀取數據，所以在kafka的partition和rdd的partition之間，一一對映。
2.高性能：direct沒有receiver,不需要WAL寫前日志，因為kafka中的副本就可以保證數據不丟失。
3.降低資源，direct不需要receiver,因此申請的executor可以全部用於運算。

缺點:
1.開發復雜
2.要spark自己維護offset

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark-streaming獲取kafka數據的兩種方式 Spark-Streaming獲取kafka數據的兩種方式：Receiver與Direct的方式 Spark Streaming 讀取 Kafka 數據的兩種方式 Spark Streaming讀取Kafka數據的兩種方式 spark-streaming-連接kafka的兩種方式 kafka結合streaming的兩種方式 Spark Streaming連接Kafka的兩種方式 direct 跟receiver 方式接收數據的區別 spark streaming 接收kafka消息之一 -- 兩種接收方式 scala spark-streaming整合kafka （spark 2.3 kafka 0.10） spark streaming 對接kafka記錄