Kafka到Hdfs的數據Pipeline整理

本文轉載自查看原文 2016-11-18 13:01 11193 Hadoop/ kafka/ Kafka/ hdfs/ ETL/ Gobblin

作者：Syn良子出處：http://www.cnblogs.com/cssdongl 轉載請注明出處

找時間總結整理了下數據從Kafka到Hdfs的一些pipeline，如下

1> Kafka -> Flume –> Hadoop Hdfs

常用方案,基於配置,需要注意hdfs小文件性能等問題.

2> Kafka -> Kafka Hadoop Loader ->Hadoop Hdfs

Kafka Hadoop Loader通過為kafka Topic下每個分區建立對應的split來創建task實現增量的加載數據流到hdfs,上次消費的partition offset是通過zookeeper來記錄的.簡單易用.

3> Kafka -> KaBoom -> Hadoop Hdfs

KaBoom是一個借助Krackle(開源的kafka客戶端，能極大的減少對象的創建，提高應用程序的性能)來消費kafka的Topic分區數據隨后寫如hdfs,利用Curator和Zookeeper來實現分布式服務,能夠靈活的根據topic來寫入不同的hdfs目錄.

4> Kafka -> Kafka-connect-hdfs -> Hadoop Hdfs

Confluent的Kafka Connect旨在通過標准化如何將數據移入和移出Kafka來簡化構建大規模實時數據管道的過程。可以使用Kafka Connect讀取或寫入外部系統，管理數據流並擴展系統，而無需編寫新代碼.

5> Kafka -> Gobblin -> Hadoop Hdfs

Gobblin是LinkedIn開源的一個數據攝取組件.它支持多種數據源的攝取，通過並發的多任務進行數據抽取，轉換，清洗，最終加載到目標數據源.支持單機和Hadoop MR二種方式，而且開箱即用，並支持很好的擴展和二次開發.

參考資料:

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 HDFS pipeline寫 -- datanode Logstash讀取Kafka數據寫入HDFS詳解 flume從kafka讀取數據到hdfs中的配置 kafka connect，將數據批量寫到hdfs完整過程 Mysql增量寫入Hdfs（一） --將Mysql數據寫入Kafka Topic kafka寫入hdfs 把kafka數據從hbase遷移到hdfs，並按天加載到hive表(hbase與hadoop為不同集群) spark streaming消費kafka數據寫入hdfs避免文件覆蓋方案(java版) kafka面試題整理 pipeline