ETL及常用工具簡介
ETL是數據抽取(Extract)、轉換(Transform)、加載(Load)的縮寫.
一、主流的數據同步工具
1、離線
Kettle、Sqoop、DataX
2、實時
Kafka、Flume、OGG
二、Kettle
Kettle是一款國外開源的ETL工具,純 Java 編寫,數據抽取高效,對各種數據源的支持比較好。
跨平台,Window、Linux、Unix都可以運行。
綠色無需安裝,解壓即可。
提供一個圖形化的界面,用來設計數據流控制以及轉換。
三、Sqoop
Sqoop是一款開源的工具,主要用於在HDFS和傳統數據庫間進行高效的數據傳遞。
Hadoop生態自帶,
關系型數據庫數據導入到HDFS,
HDFS的數據導出到關系型數據庫。
四、DataX
DataX是淘寶開源的數據交換工具,采用框架+插件結構。
框架相當於數據中轉平台,插件則為不同類型的數據提供實現。

Reader:Reader負責從數據源端讀取數據到交換空間,
比如 hdfsreader、mysqlreader.
Writer: 負責將交換空間中的數據寫入到數據目的端,
比如 hdfswriter、sqlserverwriter
