一、概述
DataWorks數據工場,是MaxComputer的可視化開發平台,一站式開發、管理界面
1.功能概述
1.強大調度:支持分鍾到月的調度
2.多種任務:支持ODPS、SHELL等多種任務
3.可視化開發:B/S架構的可視化開發界面,簡單易上手
2.基本概念
1.任務
0個或多個表作為輸入,1個或多個表作為輸出。主要分為節點任務、工作流任務、內部節點
2.實例
某個任務某個時刻的運行快照
3.提交
提交的任務會到調度系統(不提交的不能加入調度系統)
4.資源和函數
俗稱的JAR、UDF
以上都可在DataWorks中找到:
// 因版本差異可能不同,此處是在左上
二、基本開發流程
主要包括:建表上傳數據->創建工作流->創建同步任務->創建周期和依賴->運維日志排錯
1.建表上傳數據
在任務開發中新建一個節點任務,寫入DDL建表語句,運行即可完成建表,通過找表即可找到新建的表:
// 各個版本DataWorks可能稍有不同
數據同步任務,將在下節詳述
2.創建工作流
創建任務時選擇工作流任務即可創建工作流:
一般而言會創建一個虛節點用於做控制節點,虛節點對運行數據不產生任何影響,僅用於對下游節點的控制,一般而言,虛節點作為根節點控制整個工作流。
3.創建同步任務
注意RDS等數據源需要添加白名單等(ECS添加安全組)
首先需要項目管理員新建數據源:
新版DataWorks是在數據集成中新建,老板的在項目管理中:
新建的數據同步在新版中是數據集成的左上角,老板的需要在新建任務時選擇任務類型:
// 底層核心應該是DataX
簡單起見,可以用向導模式,可視化同步數據
4.配置周期和依賴
雙擊打開任務后,在頁面右側點擊任務屬性即可配置(新版略有不同):
即可配置周期調度以及依賴屬性了,當有依賴任務時必須等待上游任務跑完才能執行(即使本身已到運行時間)
5.運維日志管理
可以通過運維中心查看任務,右擊即可管理查看