什么是etl


ETL,是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。

ETL的質量問題具體表現為正確性、完整性、一致性、完備性、有效性、時效性和可獲取性等幾個特性。

要實現ETL,首先要實現ETL轉換的過程。它可以集中地體現為以下幾個方面:

1.空值處理:可捕獲字段空值,進行加載或替換為其他含義數據,並可根據字段空值實現分流加載到不同目標庫。

2.規范化數據格式:可實現字段格式約束定義,對於數據源中時間、數值、字符等數據,可自定義加載格式。

3.拆分數據:依據業務需求對字段可進行分解。例:主叫號861082585313-8148,可進行區域碼和電話號碼分解。

4.驗證數據正確性:可利用Lookup及拆分功能進行數據驗證。例如,主叫號861082585313-8148,進行區域碼和電話號碼分解后,可利用Lookup返回主叫網關或交換機記載的主叫地區,進行數據驗證。

5.數據替換:對於因業務因素,可實現無效數據、缺失數據的替換。

6.Lookup:查獲丟失數據 Lookup實現子查詢,並返回用其他手段獲取的缺失字段,保證字段完整性。

7.建立ETL過程的主外鍵約束:對無依賴性的非法數據,可替換或導出到錯誤數據文件中,保證主鍵唯一記錄的加載。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM