ETL學習筆記之概念篇

導讀：ETL，Extraction-Transformation-Loading的縮寫，即數據抽取（Extract）、轉換（Transform）、裝載（Load）的過程，它是構建數據倉庫的重要環節。

ETL學習筆記之概念篇（下）

日期：2009-9-7 作者：fengbuyu 我要評論

大 | 中 | 小

導讀：ETL日志分為三類。一類是執行過程日志，這一部分日志是在ETL執行過程中每執行一步的記錄，記錄每次運行每一步驟的起始時間，影響了多少行數據，流水賬形式。

關鍵詞：ETL 數據倉庫 OLTP OLAP

　　三、ETL日志、警告發送

　　1、ETL日志

　　ETL日志分為三類。一類是執行過程日志，這一部分日志是在ETL執行過程中每執行一步的記錄，記錄每次運行每一步驟的起始時間，影響了多少行數據，流水賬形式。一類是錯誤日志，當某個模塊出錯的時候寫錯誤日志，記錄每次出錯的時間、出錯的模塊以及出錯的信息等。第三類日志是總體日志，只記錄ETL開始時間、結束時間是否成功信息。如果使用ETL工具,ETL工具會自動產生一些日志，這一類日志也可以作為ETL日志的一部分。記錄日志的目的是隨時可以知道ETL運行情況，如果出錯了，可以知道哪里出錯。

　　2、警告發送

　　如果ETL出錯了，不僅要形成ETL出錯日志，而且要向系統管理員發送警告。發送警告的方式多種，一般常用的就是給系統管理員發送郵件，並附上出錯的信息，方便管理員排查錯誤。

　　ETL是BI項目的關鍵部分，也是一個長期的過程，只有不斷的發現問題並解決問題，才能使ETL運行效率更高，為BI項目后期開發提供准確的數據。

　　四、補充對ETL的理解：

　　1、數據收集：

　　a）收集位置多樣：不同服務器上，不同位置上;

　　b）收集數據形式多樣：不同存儲文件，不同存儲格式;

　　2、分析轉換統一數據形式：

　　a）分析解析不同文件和不同數據格式;

　　b）將不同格式數據轉換為統一格式;

　　c）合並收集的數據;

　　3、將統一格式數據導入數據倉庫。

　　如果說數據倉庫的模型設計是一座大廈的設計藍圖，數據是磚瓦的話，那么ETL就是建設大廈的過程。在整個項目中最難部分是用戶需求分析和模型設計，而ETL規則設計和實施則是工作量最大的，約占整個項目的60%～80%，這是國內外從眾多實踐中得到的普遍共識。

　　目前，ETL工具的典型代表有:微軟SSIS（取代了原來的DTS）、Informatica、Datastage、ORACLE的OWB和ODI、另外，Sun也有一套完整的ETL工具。開源的工具有eclips的etl插件。

　　ETL的質量問題具體表現為正確性、完整性、一致性、完備性、有效性、時效性和可獲取性等幾個特性。

　　為了能更好地實現ETL，建議用戶在實施ETL過程中應注意以下幾點：

　　第一，保證集成與加載的高效性，可以分布式分析然后匯總;

　　第二，增強可控性，主動收集數據不要被動推送數據;

　　第三，應制定流程化的配置管理和標准協議;

　　第四，制定關鍵數據標准和非關鍵數據標准。

　　四種數據ETL模式：

　　1）完全刷新：數據倉庫數據表中只包括最新的數據，每次加載均刪除原有數據，然后完全加載最新的源數據。這種模式下，數據抽取程序抽取源數據中的所有記錄，在加載前，將目標數據表清空，然后加載所有記錄。為提高刪除數據的速度，一般是采用Truncate清空數據表。如本系統中的入庫當前信息表采用此種模式。

　　2）鏡像增量：源數據中的記錄定期更新，但記錄中包括記錄時間字段，源數據中保存了數據歷史的記錄，ETL可以通過記錄時間將增量數據從源數據抽取出來以附加的方式加載到數據倉庫中，數據的歷史記錄也會被保留在數據倉庫中

　　3）事件增量：每一個記錄是一個新的事件，相互之間沒有必然的聯系，新記錄不是對原有記錄數值的變更，記錄包括時間字段，可以通過時間字段將新增數據抽取出來加載到數據庫中。

　　4）鏡像比較：數據倉庫數據具有生效日期字段以保存數據的歷史信息，而源數據不保留歷史並且每天都可能被更新。因此，只能將新的鏡像數據與上次加載的數據的鏡像進行比較，找出變更部分，更新歷史數據被更新記錄的生效終止日期，並添加變更后的數據。大多數源數據中需保存歷史信息的維表。

ETL學習筆記之概念篇

ETL學習筆記之概念篇（下）

免責聲明！