什么是DataWorks?
一個大數據開發治理平台,集數據集成,數據開發,數據地圖,數據質量,數據服務等於一體,一站式開發管理的界面。
DataWorks支持多種計算和存儲引擎服務,包括離線計算MaxCompute、開源大數據引擎E-MapReduce、實時計算(基於Flink)、機器學習PAI、雲原生數據倉庫 AnalyticDB for PostgreSQL,雲原生數據倉庫AnalyticDB for MySQL,並且支持用戶自定義接入計算和存儲服務。
基本概念:
任務(Task)
任務是對數據執行的操作的定義,示例如下:
- 通過數據同步節點任務,將數據從RDS同步至MaxCompute。
- 通過MaxCompute SQL節點任務,運行MaxCompute SQL來進行數據的轉換。
任務主要分為節點任務(Node Task)、工作流任務(Flow Task)和內部節點(inner Node)。
| 任務類型 | 描述 |
| 節點任務(Node Task) | 一個數據執行的操作。可以與其它節點任務、工作流任務配置依賴關系,組成DAG圖。 |
| 工作流任務(Flow Task) | 滿足一個業務場景需求的一組內部節點,組成一個工作流任務,建議工作流任務小於10個。
工作流任務內部節點,無法被其它工作流任務、節點任務依賴。工作流任務可以與其它工作流任務、節點任務配置依賴關系,組成DAG圖。
( 從DataWorks V1.0升級的任務,仍保留工作流的概念。DataWorks V2.0及以上版本已無法創建工作流任務,您可以選擇創建業務流程進行后續操作。)
|
| 內部節點(innerNode) | 工作流任務內部的節點,與節點任務的功能基本一致。您可以通過拖拽形成依賴關系,其調度周期會繼承工作流任務的調度周期,無法進行單獨配置。 |
實例(Instance)
某個任務在某時某刻執行的一個快照。調度系統中的任務,經過調度系統、手動觸發運行后,會生成一個實例。實例中會有任務運行時間、運行狀態和運行日志等信息。
例如:設置每天2:00運行Task1實例,調度系統會在每天23:30根據周期節點定義好的時間,自動生成一個快照,即Task1第二天2:00運行的實例。到第二天2:00時,如果判斷上游實例已經完成,Task1實例便會如期啟動運行。(就是在你的task運行之前做一個快照,在一些情況問題后可以去恢復)。
可以在DataWorks的運維中心 > 周期任務運維頁面,查詢實例。
提交(Submit)
你所開發的任務節點、業務流程,從DataWorks開發環境發布至調度系統就叫提交。相應的代碼、調度配置全部合並至調度系統中,調度系統根據相關配置進行調度操作。
腳本開發(Script)
這部分代碼無法進行調度參數配置,也無法發布到調度系統中,僅可進行部分數據查詢分析的工作。
元數據
元數據是數據的描述數據,可以為數據說明其屬性(名稱、大小、數據類型等),或結構(字段、類型、長度等),或其相關數據(位於何處、擁有者、產出任務、訪問權限等)。DataWorks中元數據主要指庫、表相關的信息,元數據管理對應的主要應用是數據地圖。
補數據
完成周期任務的開發,將任務提交發布之后,任務會按照調度配置定時運行。如果您希望對歷史時間段內的數據進行計算,您可以使用補數據功能。補數據操作生成的補數據實例將按照指定的業務日期運行。
簡單流程:
進入DataWorks控制台后:
1.創建工作空間:
基本配置中勾選MaxCompute;
2.采集數據:創建數據源(通過DataWorks采集數據至MaxCompute)
工作空間 > 數據集成 > 左側導航欄選擇數據源 > 數據源管理 > 右上角新增數據源;
3.新建業務流程和數據同步節點:
創建虛擬節點 > 其他節點 (拖拽連接上下游) > 配置節點信息;
4.新建表:
右鍵單擊MaxCompute,選擇新建 > 表 > 在新建表的編輯頁面完成表結構信息 > 提交到開發環境和生產環境;
5.同步數據:
雙擊第3步創建好的數據同步節點,進入節點配置界面,輸入第2步的數據源和第4步的數據去向;
| 參數 | 描述 |
| 任務期望最大並發數 | 數據同步任務內,可以從源並行讀取或並行寫入數據存儲端的最大線 程數。向導模式通過界面化配置並發數,指定任務所使用的並行度 |
| 同步速率 | 設置同步速率可以保護讀取端數據庫,以避免抽取速度過大,給源庫 造成太大的壓力。同步速率建議限流,結合源庫的配置,請合理配置 抽取速率 |
| 錯誤記錄數 | 錯誤記錄數,表示臟數據的最大容忍條數 |
| 任務資源組 | 任務運行的機器,如果任務數比較多,使用默認資源組出現等待資源 的情況,建議購買獨享數據集成資源或添加自定義資源組 |
