前言
最近接觸一個新項目,要用到datastage,翻了一下網上的中文資料很少,決定翻譯一些官網資料在這里,方便自己學習回顧。
什么是Datastage?
Datastage是一個可視化數據集成工具(ETL工具),能夠支持開發者迅速搭建數據倉庫。
Datastage能夠設計,運行,編譯和管理ETL任務,支持數據驗證。
Datastage能夠支持關系型數據庫,可離線,可實時,可作為網站接口。
CDC:change data capture
1. Infospheres cdc 能夠監控和捕獲源庫變更
2. 根據復制定義,infosphere cdc 傳輸變更數據到Infosphere cdc for infosphere datastage
3. Infosphere cdc for infosphere datastage 同過TCP/IP進程將數據傳給CDC transaction stage,同時也會發送提交信息,在捕獲日志中做標記
4. 每次當infosphere datastage for cdc 服務器發送提交命令時,cdc transaction stage將會創造一個流終端(end of wave)標記,這個標記會向目標庫連接stage,發送輸出連接。
5. 當目標庫的connector stage接收到流終端標記時,它寫入的標記信息會寫入標記信息表,然后向目標庫提交轉換
6. Infosphere cdc for infosphere datastage 服務器向目標庫的標記信息表請求標記信息
Infosphere cdc for infosphere datastage 服務器收到標記信息
Datastage的ETL過程
Data profiling---->Data Quality or cleansing---->Data Transformation---> Active Data Base: (Historical data)
Dataprofiling ----源數據預處理
- Ca - - > Column Analysis
- Pa - - > primary key Analysis
- Fa - - > foreign key Analysis
- Bl - - > base line Analysis
- Cd - - > cross domain Analysis
Data Quality or cleansing--數據清洗
- Parsing
- Cording
- Standardize
- Matching
- Consolidate
Data Transformation--數據轉換
Active Data Base: (Historical data) ----歷史數據存儲
大概會存30-90天的歷史數據
Datastage stage的分類和使用
專有名詞:
ds engineer
information tier 信息分層
參考:https://tekslate.com/architecture-data-stage
https://blog.csdn.net/weixin_42904581/article/details/84503609
https://developer.ibm.com/tutorials/perform-advanced-etl-operations-with-datastage/?mhsrc=ibmsearch_a&mhq=datastage