ETL-kettle 核心執行邏輯

本文轉載自查看原文 2019-07-14 15:41 808 隨筆/ 大數據-ETL

一、大數據下的ETL工具是否還使用Kettle

kettle 作為通用的ETL工具,非常成熟，應用也很廣泛，這里主要講一下目前我們如何使用kettle的？

在進行大數據處理時，ETL也是大數據處理的主要場景之一。針對大數據下的ETL, 在大數據研究之初，曾經花費很大精力去尋找大數據下比較成熟的ETL工具，但是不多。主要分類如下：

大數據下的ETL處理過程和傳統關系型數據庫下的ETL處理過程，我的理解本質還是一樣的，要說區別可能是大數據下需要ETL處理的數據速度足夠快，這就要求可以充分利用分布式的能力，比如利用分布式的資源進行分布式的的計算。

基於使用經驗和產品成熟度，在大數據下我們針對一些對數據處理速度不是非常之高的場景，我們仍然使用kettle。這里我為什么不說數據量，因為對於一個ETL過程，說數據量是無意義的，好的ETL工具的核心引擎一定是一個類似現在的流式計算

也就是說數據向水一樣的流動，流動的過程中做數據處理。也可kettle本身的含義類似。

基於個人的理解，任務kettle的優勢主要體現在以下幾點

2.運行時

3.可擴展性

4.待完善點

目前kettle 的定位：

目前針對kettle做的擴展開發

插件開發

2.2.5 table out put

以上是kettle 核心數據流處理的核心過程。分享給大家

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 ETL-Kettle學習筆記（入門，簡介，簡單操作） ETL-Kettle學習筆記（入門，簡介，簡單操作） ETL-kettle報錯--org.gjt.mm.mysql.Driver ETL-Kettle學習筆記（入門，簡介，簡單操作） java api 調用 kettle 執行etl任務 ETL利器Kettle實戰應用解析系列三【ETL后台進程執行配置方式】 ETL工具kettle基本使用 Kettle中的ETL優化大數據治理ETL 工具開源 Kettle 與國產老牌Beeload 核心功能對比！ etl工具，kettle實現循環