數據etl常用工具kettle。
1、說明:
kettle-數據源配置化:是指kettle的數據源連接信息全部或者部分從配置文件中讀取(如果是數據庫的資源庫,那么資源庫也可以配置化)。
2、優點:
1、這樣程序本身就和kettle的業務解綁了,開發、生產采用不同配置;每次開發完成就可以直接導入線上,再也不用手動去修改連接信息(少改少錯,不改就不錯)。
2、可以對開發人員保密線上的連接信息,保證數據安全。
在開發和部署的時候不用再關心線上、開發、測試環境的數據源不一樣,每次上線需要手動修改的麻煩。
3、資源庫的方式有2種:
(1)、文件方式。方便遷移、分布式環境下需要自己解決文件同步。
(2)、數據庫方式。會有數據庫鎖的問題。不用維護文件同步問題。集群部署支持好。
(3)、讀取配置文件的方式,對上面2中資源庫類型都是支持的,沒有影響。
數據庫方式的資源庫中的數據源連接信息,也可以從配置文件讀取(共享的數據源、非共享的數據源都可以)。
4、kettle配置文件的位置:
windows 默認在:C:\Users\用戶\.kettle
linux 默認在:/root/.kettle/
5、配置文件:
下圖是kettle的三個核心配置文件。依次是配置信息文件、資源庫配置文件、共享數據源配置文件
6、我們在kettle界面上看看具體的配置是怎么樣的
(1)、資源庫的連接信息:從配置文件中讀取
(2)、數據源的連接信息:從配置文件中讀取
(3)、hadoop的連接信息:從配置文件中讀取
7、下面分別看一下三個文件的內容
(1)、配置信息文件
這里特別說明:配置好之后,線上、線下只有這個配置文件的內容不一樣。其他配置都是一樣的。這樣在開發好之后可以直接導入線上。連數據源、資源庫的連接名都不用改。
(2)、資源庫配置文件
(3)、共享數據源配置文件
如果沒有配置共享數據源,則這個文件是空的,如果有,跟上圖的連接信息類似。