什么是DataWorks？

　　一個大數據開發治理平台，集數據集成，數據開發，數據地圖，數據質量，數據服務等於一體，一站式開發管理的界面。

　　DataWorks支持多種計算和存儲引擎服務，包括離線計算MaxCompute、開源大數據引擎E-MapReduce、實時計算（基於Flink）、機器學習PAI、雲原生數據倉庫 AnalyticDB for PostgreSQL，雲原生數據倉庫AnalyticDB for MySQL，並且支持用戶自定義接入計算和存儲服務。

基本概念：

　　任務（Task）

　　　　任務是對數據執行的操作的定義，示例如下：

通過數據同步節點任務，將數據從RDS同步至MaxCompute。
通過MaxCompute SQL節點任務，運行MaxCompute SQL來進行數據的轉換。

　　　　任務主要分為節點任務（Node Task）、工作流任務（Flow Task）和內部節點（inner Node）。

任務類型	描述
節點任務（Node Task）	一個數據執行的操作。可以與其它節點任務、工作流任務配置依賴關系，組成DAG圖。
工作流任務（Flow Task）	滿足一個業務場景需求的一組內部節點，組成一個工作流任務，建議工作流任務小於10個。工作流任務內部節點，無法被其它工作流任務、節點任務依賴。工作流任務可以與其它工作流任務、節點任務配置依賴關系，組成DAG圖。（從DataWorks V1.0升級的任務，仍保留工作流的概念。DataWorks V2.0及以上版本已無法創建工作流任務，您可以選擇創建業務流程進行后續操作。）
內部節點（innerNode）	工作流任務內部的節點，與節點任務的功能基本一致。您可以通過拖拽形成依賴關系，其調度周期會繼承工作流任務的調度周期，無法進行單獨配置。

　　實例（Instance）

　　　　某個任務在某時某刻執行的一個快照。調度系統中的任務，經過調度系統、手動觸發運行后，會生成一個實例。實例中會有任務運行時間、運行狀態和運行日志等信息。

　　　　例如：設置每天2:00運行Task1實例，調度系統會在每天23:30根據周期節點定義好的時間，自動生成一個快照，即Task1第二天2:00運行的實例。到第二天2:00時，如果判斷上游實例已經完成，Task1實例便會如期啟動運行。（就是在你的task運行之前做一個快照，在一些情況問題后可以去恢復）。

　　　　可以在DataWorks的運維中心 > 周期任務運維頁面，查詢實例。

　　提交（Submit）

　　　　你所開發的任務節點、業務流程，從DataWorks開發環境發布至調度系統就叫提交。相應的代碼、調度配置全部合並至調度系統中，調度系統根據相關配置進行調度操作。

　　腳本開發（Script）

　　　　這部分代碼無法進行調度參數配置，也無法發布到調度系統中，僅可進行部分數據查詢分析的工作。

　　元數據

　　　　元數據是數據的描述數據，可以為數據說明其屬性（名稱、大小、數據類型等），或結構（字段、類型、長度等），或其相關數據（位於何處、擁有者、產出任務、訪問權限等）。DataWorks中元數據主要指庫、表相關的信息，元數據管理對應的主要應用是數據地圖。

　　補數據

　　　　完成周期任務的開發，將任務提交發布之后，任務會按照調度配置定時運行。如果您希望對歷史時間段內的數據進行計算，您可以使用補數據功能。補數據操作生成的補數據實例將按照指定的業務日期運行。

簡單流程：

　　進入DataWorks控制台后：

　　　1.創建工作空間：

　　　　　　基本配置中勾選MaxCompute；

　　　2.采集數據：創建數據源（通過DataWorks采集數據至MaxCompute）

　　　　　　工作空間 > 數據集成 > 左側導航欄選擇數據源 > 數據源管理 > 右上角新增數據源；

　　　3.新建業務流程和數據同步節點：

　　　　　　創建虛擬節點 > 其他節點（拖拽連接上下游） > 配置節點信息；

　　　4.新建表：

　　　　　　右鍵單擊MaxCompute，選擇新建 > 表 > 在新建表的編輯頁面完成表結構信息 > 提交到開發環境和生產環境；

　　　5.同步數據：

　　　　　　雙擊第3步創建好的數據同步節點，進入節點配置界面，輸入第2步的數據源和第4步的數據去向；　

參數	描述
任務期望最大並發數	數據同步任務內，可以從源並行讀取或並行寫入數據存儲端的最大線程數。向導模式通過界面化配置並發數，指定任務所使用的並行度
同步速率	設置同步速率可以保護讀取端數據庫，以避免抽取速度過大，給源庫造成太大的壓力。同步速率建議限流，結合源庫的配置，請合理配置抽取速率
錯誤記錄數	錯誤記錄數，表示臟數據的最大容忍條數
任務資源組	任務運行的機器，如果任務數比較多，使用默認資源組出現等待資源的情況，建議購買獨享數據集成資源或添加自定義資源組

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據平台Hive數據遷移至阿里雲ODPS平台流程與問題記錄阿里巴巴雲原生大數據運維平台 SREWorks 正式開源大數據學習之四——HDFS 海量大數據大屏分析展示一步到位：DataWorks數據服務對接DataV最佳實踐 2021阿里雲大數據/雲計算助理工程師ACA題庫刷題系統大數據之路：阿里巴巴大數據實踐PDF下載【阿里巴巴大數據實踐筆記】第8章：大數據領域建模綜述大數據學習之路-phoenix 【大數據】Hive學習筆記大數據開發學習路線整理