阿里雲大數據之——DataWorks學習


什么是DataWorks?

  一個大數據開發治理平台,集數據集成,數據開發,數據地圖,數據質量,數據服務等於一體,一站式開發管理的界面。

  DataWorks支持多種計算和存儲引擎服務,包括離線計算MaxCompute開源大數據引擎E-MapReduce實時計算(基於Flink)機器學習PAI雲原生數據倉庫 AnalyticDB for PostgreSQL雲原生數據倉庫AnalyticDB for MySQL,並且支持用戶自定義接入計算和存儲服務。

基本概念:

  任務(Task)

    任務是對數據執行的操作的定義,示例如下:

  • 通過數據同步節點任務,將數據從RDS同步至MaxCompute。
  • 通過MaxCompute SQL節點任務,運行MaxCompute SQL來進行數據的轉換。

    任務主要分為節點任務(Node Task)、工作流任務(Flow Task)和內部節點(inner Node)。

任務類型 描述
節點任務(Node Task) 一個數據執行的操作。可以與其它節點任務、工作流任務配置依賴關系,組成DAG圖。
工作流任務(Flow Task) 滿足一個業務場景需求的一組內部節點,組成一個工作流任務,建議工作流任務小於10個。
工作流任務內部節點,無法被其它工作流任務、節點任務依賴。工作流任務可以與其它工作流任務、節點任務配置依賴關系,組成DAG圖。
 
( 從DataWorks V1.0升級的任務,仍保留工作流的概念。DataWorks V2.0及以上版本已無法創建工作流任務,您可以選擇創建業務流程進行后續操作。)
內部節點(innerNode) 工作流任務內部的節點,與節點任務的功能基本一致。您可以通過拖拽形成依賴關系,其調度周期會繼承工作流任務的調度周期,無法進行單獨配置。

 

 

 

 

 

  實例(Instance)

    某個任務在某時某刻執行的一個快照。調度系統中的任務,經過調度系統、手動觸發運行后,會生成一個實例。實例中會有任務運行時間、運行狀態和運行日志等信息。

    例如:設置每天2:00運行Task1實例,調度系統會在每天23:30根據周期節點定義好的時間,自動生成一個快照,即Task1第二天2:00運行的實例。到第二天2:00時,如果判斷上游實例已經完成,Task1實例便會如期啟動運行。(就是在你的task運行之前做一個快照,在一些情況問題后可以去恢復)。

    可以在DataWorks的運維中心 > 周期任務運維頁面,查詢實例。

 

  提交(Submit)

    你所開發的任務節點、業務流程,從DataWorks開發環境發布至調度系統就叫提交。相應的代碼、調度配置全部合並至調度系統中,調度系統根據相關配置進行調度操作。

 

  腳本開發(Script)

    這部分代碼無法進行調度參數配置,也無法發布到調度系統中,僅可進行部分數據查詢分析的工作。

 

  元數據

    元數據是數據的描述數據,可以為數據說明其屬性(名稱、大小、數據類型等),或結構(字段、類型、長度等),或其相關數據(位於何處、擁有者、產出任務、訪問權限等)。DataWorks中元數據主要指庫、表相關的信息,元數據管理對應的主要應用是數據地圖

 

  補數據

    完成周期任務的開發,將任務提交發布之后,任務會按照調度配置定時運行。如果您希望對歷史時間段內的數據進行計算,您可以使用補數據功能。補數據操作生成的補數據實例將按照指定的業務日期運行。

 

簡單流程:

  進入DataWorks控制台后:

   1.創建工作空間:

      基本配置中勾選MaxCompute;

   2.采集數據:創建數據源(通過DataWorks采集數據至MaxCompute)

      工作空間  >  數據集成  >  左側導航欄選擇數據源  >  數據源管理  >  右上角新增數據源;

   3.新建業務流程和數據同步節點:

      創建虛擬節點  >  其他節點 (拖拽連接上下游) >  配置節點信息;

   4.新建表:

      右鍵單擊MaxCompute,選擇新建 > 表  >  在新建表的編輯頁面完成表結構信息  >  提交到開發環境和生產環境;

   5.同步數據:

      雙擊第3步創建好的數據同步節點,進入節點配置界面,輸入第2步的數據源和第4步的數據去向; 

參數 描述 
任務期望最大並發數  數據同步任務內,可以從源並行讀取或並行寫入數據存儲端的最大線
程數。向導模式通過界面化配置並發數,指定任務所使用的並行度
同步速率   設置同步速率可以保護讀取端數據庫,以避免抽取速度過大,給源庫
造成太大的壓力。同步速率建議限流,結合源庫的配置,請合理配置
抽取速率
錯誤記錄數 錯誤記錄數,表示臟數據的最大容忍條數
任務資源組 任務運行的機器,如果任務數比較多,使用默認資源組出現等待資源
的情況,建議購買獨享數據集成資源或添加自定義資源組


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM