Etl 介紹
ETL(Extract-Transform-Load 的縮寫,即數據抽取、轉換、裝載的過程),對於金融 IT 來說,經常會遇到大數據量的處理,轉換,遷移,所以了解並掌握一種
etl 工具的使用,必不可少。Kettle 是一款國外開源的 etl 工具,純 java 編寫,綠色無需安裝,數據抽取高效穩定。Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對數據的基礎轉換,job 則完成整個工作流的控制。
kettle 部署運行
1.將 kettle4.3.1 文件夾拷貝到本地路徑,例如 D 盤根目錄。雙擊運行 kettle 文件夾下的 spoon.bat 文件
2.進入程序主頁面后,選擇沒有資源庫,打開 kettle 主界面建 創建 transformation ,job
3.點擊頁面左上角的 創建一個新的 transformation,點擊 保存到本地路徑,例如保存到 D:/etltest 下,保存文件名為 EtltestTrans,kettle 默認 transformation
文件保存后后綴名為 ktr點擊頁面左上角的 創建一個新的 job,點擊 保存到本地路徑,例如保存到 D:/etltest 下,保存文件名為 EtltestJob,kettle 默認 job 文件保存后后綴名為kjb
4.創建數據庫連接
在 transformation 頁面下,點擊左邊的【Main Tree】,雙擊【DB 連接】,進行數據庫連接配置。
- Connection name 自命名連接名稱
- Connection type 選擇需要連接的數據庫
- Method of access 選擇連接類型
- Server host name 寫入數據庫服務器的 ip 地址
- Database name 寫入數據庫名
- Port number 寫入端口號
- Username 寫入用戶名
- Password 寫入密碼
例如如下配置:
點擊【test】,如果出現如下提示則說明配置成功
點擊關閉,再點擊確定保存數據庫連接。
第一個轉換(transformation)
- 目標:
兩個結構相同的表數據同步更新 - 操作步驟:
-
在核心對象中搜索表輸出
,找到並拖動的主窗口。
-
在核心對象中搜索插入/更新
,拖動到主窗口。
-
連線。
-
數據庫連接選擇剛剛創建好的 local數據庫連接,在主窗口寫入對應的查詢
語句,如select * from xxx_tb.
5.配置更新設置,包括數據庫連接,目標表,查詢關鍵字和更新字段。
6.保存。
7.執行。
8.查看執行結果。
如果出現錯誤,可根據日志查明原因。