ETL及常用工具简介


ETL及常用工具简介

ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的缩写.

一、主流的数据同步工具

1、离线

Kettle、Sqoop、DataX

2、实时

Kafka、Flume、OGG

二、Kettle

Kettle是一款国外开源的ETL工具,纯 Java 编写,数据抽取高效,对各种数据源的支持比较好。

跨平台,Window、Linux、Unix都可以运行。

绿色无需安装,解压即可。

提供一个图形化的界面,用来设计数据流控制以及转换。

三、Sqoop

Sqoop是一款开源的工具,主要用于在HDFS和传统数据库间进行高效的数据传递。

Hadoop生态自带,

关系型数据库数据导入到HDFS,

HDFS的数据导出到关系型数据库。

四、DataX

DataX是淘宝开源的数据交换工具,采用框架+插件结构。

框架相当于数据中转平台,插件则为不同类型的数据提供实现。

Reader:Reader负责从数据源端读取数据到交换空间,

                比如 hdfsreader、mysqlreader.

Writer: 负责将交换空间中的数据写入到数据目的端,

            比如 hdfswriter、sqlserverwriter

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM