Datastage 入門


前言

最近接觸一個新項目,要用到datastage,翻了一下網上的中文資料很少,決定翻譯一些官網資料在這里,方便自己學習回顧。

  

 

什么是Datastage?

Datastage是一個可視化數據集成工具(ETL工具),能夠支持開發者迅速搭建數據倉庫。

Datastage能夠設計,運行,編譯和管理ETL任務,支持數據驗證。

Datastage能夠支持關系型數據庫,可離線,可實時,可作為網站接口。

CDC:change data capture

 

1. Infospheres cdc 能夠監控和捕獲源庫變更
2. 根據復制定義,infosphere cdc 傳輸變更數據到Infosphere cdc for infosphere datastage
3. Infosphere cdc for infosphere datastage 同過TCP/IP進程將數據傳給CDC transaction stage,同時也會發送提交信息,在捕獲日志中做標記
4. 每次當infosphere datastage for cdc 服務器發送提交命令時,cdc transaction stage將會創造一個流終端(end of wave)標記,這個標記會向目標庫連接stage,發送輸出連接。
5. 當目標庫的connector stage接收到流終端標記時,它寫入的標記信息會寫入標記信息表,然后向目標庫提交轉換
6. Infosphere cdc for infosphere datastage 服務器向目標庫的標記信息表請求標記信息
Infosphere cdc for infosphere datastage 服務器收到標記信息

 

 

 

Datastage的ETL過程

Data profiling---->Data Quality or cleansing---->Data Transformation--->  Active Data Base: (Historical data)  

 Dataprofiling ----源數據預處理 

  • Ca - - >  Column Analysis  
  • Pa - - >   primary key Analysis
  • Fa - - >  foreign key Analysis
  • Bl - - >   base line Analysis
  • Cd - - >   cross domain Analysis

Data Quality or cleansing--數據清洗

  • Parsing
  • Cording
  • Standardize
  • Matching
  • Consolidate

Data Transformation--數據轉換

 

Active Data Base: (Historical data)  ----歷史數據存儲

 大概會存30-90天的歷史數據

 

 

Datastage stage的分類和使用

 

 

 

 

 

 專有名詞:

ds engineer 

information tier 信息分層

 

 參考:https://tekslate.com/architecture-data-stage

            https://blog.csdn.net/weixin_42904581/article/details/84503609

            https://developer.ibm.com/tutorials/perform-advanced-etl-operations-with-datastage/?mhsrc=ibmsearch_a&mhq=datastage


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM