最開始接觸confluent是通過這篇博客,How to Build a Scalable ETL Pipeline with Kafka Connect,對於做大數據的,數據的ETL(抽取,轉換,裝載)是必不可少的。例如,要把傳統的關系型數據庫中的數據導入到HDFS里,或者導入到Hive中,進一步對數據進行分析,或者把json或者文本文件中的數據導入到大數據數據倉庫中進行分析。這都需要ETL。這篇文章介紹了如何利用confluent的相關組件(Kafka Connect,構建一個ETL pipeline.下圖來自於這篇博客。有興趣的可以看一下這篇博客。
Building a Scalable ETL Pipeline in 30 Minutes
confluent介紹:
LinkedIn有個三人小組出來創業了—正是當時開發出Apache Kafka實時信息列隊技術的團隊成員,基於這項技術Jay Kreps帶頭創立了新公司Confluent。Confluent的產品圍繞着Kafka做的。
什么是Confluent Platform?
Confluent Platform 是一個流數據平台,能夠組織管理來自不同數據源的數據,擁有穩定高效的系統。
Confluent Platform 不僅提供數據傳輸的系統, 還提供所有的工具:連接數據源的工具,應用, 以及數據接收。
Confluent Platform 都包括什么?
Confluent Platform 很容易的建立實時數據管道和流應用。通過將多個來源和位置的數據集成到公司一個中央數據流平台,Confluent Platform使您可以專注於如何從數據中獲得商業價值而不是擔心底層機制,如數據是如何被運輸或不同系統間摩擦。具體來說,Confluent Platform簡化了連接數據源到Kafka,用Kafka構建應用程序,以及安全,監控和管理您的Kafka的基礎設施。
Kafka 是最流行的開源即時通訊系統,Confluent Platform 基於Kafka. Kafka 是低延遲,高可擴展,分布式消息系統。它被數百家企業用於許多不同的場景,包括收集用戶活動數據,系統日志,應用程序指標,股票行情數據和設備儀器的信號。
Kafka開源項目包括一些關鍵組件:
Kafka Brokers(開源)。構成Kafka的消息,數據持久性和存儲層。
Kafka Java Clients(開源)。Java 庫,寫消息到kafka 或者從kafka 讀消息。
Kafka Streams(開源)。Kafka Streams是一個庫使kafka轉換成功能齊全的流處理系統。
Kafka Connect(開源)。一種可擴展的和可靠的連接Kafka框架與外部系統(如數據庫,鍵值存儲,搜索索引和文件系統)的框架。
除了Kafka以外, Confluent Platform 包括更多的工具和服務,使構建和管理數據流平台更加容易。
Confluent Control Center(閉源)。管理和監控Kafka最全面的GUI驅動系統。
Confluent Kafka Connectors(開源)。連接SQL數據庫/Hadoop/Hive
Confluent Kafka Clients(開源)。對於其他編程語言,包括C/C++,Python
Confluent Kafka REST Proxy(開源)。允許一些系統通過HTTP和kafka之間發送和接收消息。
Confluent Schema Registry(開源)。幫助確定每一個應用使用正確的schema當寫數據或者讀數據到kafka中。
總的來說,Confluent Platform平台的組件給你的團隊朝着建立統一而靈活的方式建立一個企業范圍的數據流平台。
隨后,我們會通過一些quickstart來介紹Confluent 的核心組件。