ETL及常用工具簡介


ETL及常用工具簡介

ETL是數據抽取(Extract)、轉換(Transform)、加載(Load)的縮寫.

一、主流的數據同步工具

1、離線

Kettle、Sqoop、DataX

2、實時

Kafka、Flume、OGG

二、Kettle

Kettle是一款國外開源的ETL工具,純 Java 編寫,數據抽取高效,對各種數據源的支持比較好。

跨平台,Window、Linux、Unix都可以運行。

綠色無需安裝,解壓即可。

提供一個圖形化的界面,用來設計數據流控制以及轉換。

三、Sqoop

Sqoop是一款開源的工具,主要用於在HDFS和傳統數據庫間進行高效的數據傳遞。

Hadoop生態自帶,

關系型數據庫數據導入到HDFS,

HDFS的數據導出到關系型數據庫。

四、DataX

DataX是淘寶開源的數據交換工具,采用框架+插件結構。

框架相當於數據中轉平台,插件則為不同類型的數據提供實現。

Reader:Reader負責從數據源端讀取數據到交換空間,

                比如 hdfsreader、mysqlreader.

Writer: 負責將交換空間中的數據寫入到數據目的端,

            比如 hdfswriter、sqlserverwriter

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM