DataWorks使用小結(一)——概述


一、概述

  DataWorks數據工場,是MaxComputer的可視化開發平台,一站式開發、管理界面

  1.功能概述

    1.強大調度:支持分鍾到月的調度

    2.多種任務:支持ODPS、SHELL等多種任務

    3.可視化開發:B/S架構的可視化開發界面,簡單易上手

  2.基本概念

    1.任務

      0個或多個表作為輸入,1個或多個表作為輸出。主要分為節點任務、工作流任務、內部節點

    2.實例

      某個任務某個時刻的運行快照

    3.提交

      提交的任務會到調度系統(不提交的不能加入調度系統)

    4.資源和函數

      俗稱的JAR、UDF

  以上都可在DataWorks中找到:

    

    // 因版本差異可能不同,此處是在左上

二、基本開發流程

  主要包括:建表上傳數據->創建工作流->創建同步任務->創建周期和依賴->運維日志排錯

  1.建表上傳數據

    在任務開發中新建一個節點任務,寫入DDL建表語句,運行即可完成建表,通過找表即可找到新建的表:

    

    // 各個版本DataWorks可能稍有不同

  數據同步任務,將在下節詳述

  2.創建工作流

    創建任務時選擇工作流任務即可創建工作流:

    

    一般而言會創建一個虛節點用於做控制節點,虛節點對運行數據不產生任何影響,僅用於對下游節點的控制,一般而言,虛節點作為根節點控制整個工作流

  3.創建同步任務

    注意RDS等數據源需要添加白名單等(ECS添加安全組)

    首先需要項目管理員新建數據源:

      新版DataWorks是在數據集成中新建,老板的在項目管理中:

      

 

    新建的數據同步在新版中是數據集成的左上角,老板的需要在新建任務時選擇任務類型:

    

    // 底層核心應該是DataX

    簡單起見,可以用向導模式,可視化同步數據

  4.配置周期和依賴

    雙擊打開任務后,在頁面右側點擊任務屬性即可配置(新版略有不同):

    

    即可配置周期調度以及依賴屬性了,當有依賴任務時必須等待上游任務跑完才能執行(即使本身已到運行時間)

  5.運維日志管理

    可以通過運維中心查看任務,右擊即可管理查看

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM