Azure Data Factory 系列博客:
- ADF 第一篇:Azure Data Factory介紹
- ADF 第二篇:使用UI創建數據工廠
- ADF 第三篇:Integration runtime和 Linked Service
- ADF 第四篇:管道的執行和觸發器
- ADF 第五篇:轉換數據
- ADF 第六篇:Copy Data Activity詳解
- ADF 第七篇:控制流概述
- ADF 第八篇:傳遞參數(Pipeline的Parameter和Variable,Activity的output)和應用表達式
用戶可以通過UI來創建ADF,在UI中創建ADF時,用戶不需要下載單獨的IDE,而僅僅通過 Microsoft Edge 或者 Google Chrome瀏覽器。用戶登錄Azure Portal,選擇 “Data factories” 服務,通過 Data factories 服務中創建ADF。
一,創建Data Factory實例
打開 Data factories之后,點擊“+ Add”,創建自己的數據工廠實例:
step1,填寫Basics信息
在 “Create Data Factory” 面板中開始創建數據工廠實例,首先填寫“Basics”信息:Subscription(訂閱)、資源組(Resource group)、區域(Region)、名稱(Name)和版本(Version),版本選擇V2。
step2:配置git
在V2版本中,用戶在創建數據工廠時,還可以配置“Git configuration”,用於版本控制,可以勾選“Configure Git later”,在創建數據工廠實例之后,擇機配置git。
step3:檢查和創建
檢查(Review+Create)無誤后,點擊“Create” 按鈕創建Data factory 實例。等實例創建完成,點擊Next Step “Go to resource” 導航到數據工廠頁面。
二,作者和監視器
在Data factory的overview頁面上,點擊"Authoer & Monitor"按鈕,這會導航到 Azure Data Factory的用戶界面(UI)頁面中。
ADF的UI界面如下圖所示,界面中顯示了常用的幾個功能:Create Pipeline、Create Data Flow等。
由於我們是第一次創建Data Factory,在創建Pipeline之前,我們還需要創建連接(connection)和數據集(dataset)。
三,創建連接服務
點擊UI界面左側的“Manage”選項卡,首先創建連接,連接有兩種類型:Linked services 和 Integration runtimes,本文創建Liked Services,由於Linked Services 依賴於Integration runtimes,因此,我們首先創建Integration runtimes。
1,創建Integration runtimes(IR)
如何創建Integration runtimes,請閱讀:《ADF 第三篇:Integration runtime和 Linked Service》
2,創建Linked Services
在Connections中選中“Linked Services”,點擊“+New”,創建一個新的Linked Services:
不同的數據源,有不同的Linked Service,要根據實際的數據源,選擇合適的數據源的類型,下圖創建的Linked Service的類型是SQL Server,輸入 Name、Connect via integration runtime、Server name、Database name、Authentication type 、 User name和 Password。
注意,Connect via integration runtime 就是上一節創建的Integration runtimes。
Azure Key Vault是一個存儲空間,用戶把密碼存儲到Azure Key Vault中,輸入Key Vault的名稱和密碼就能提取它存儲的信息。
四,創建Dataset
dataset 代表數據存儲的結構(schema),它既可以代表數據源,從數據源中讀取數據;也可以代表數據目標,把數據存儲到該數據目標中。
創建一個dataset實例,只是存儲了數據存儲的結構等元數據信息,而不會真正存儲實際的數據。數據真正存儲在dataset指向的底層存儲對象中,舉個例子,dataset執行SQL Server實例中的一個表,那么數據實際存儲在這個表中,而dataset存儲的數據是表的結構和導航到表的Linked Service。同一個dataset,既可以作為獲取數據的數據源,也可以作為存儲數據的數據目標。
點擊“鉛筆”對應的“Author”選項卡,進入到Fact Resources界面,點擊“+”,選擇 Dataset,進入到創建Dataset的界面
設置Dataset的屬性,設置Dataset的Name,通過Linked service來獲取源數據的連接,通過Table name來指定表,建議把Import schema設置為From conneciton/store。
五,創建Pipeline
創建管道,管道相當於一個容器,可以把一個或多個Activity拖放到管道中。
如果向管道中放置Activity?用戶不需要編寫任何代碼,只需要從“Activities”列表中選擇需要的Activity,拖放到Pipeline中,常用的Activity 通常位於“General”子目錄中。
本文演示Copy data Activity的用法,從“Move & transform”子目錄,選擇Copy data:
Copy Activity的作用是把數據從一個dataset轉移到另一個dataset中。
1,設置Copy Activity的Source屬性
Source 屬性表示數據源,Copy Activity 從Source dataset中獲取數據:
2,Copy Activity的Sink屬性
Sink屬性用於設置數據目標,Sink dataset用於存儲數據:
3,Copy Activity的其他屬性
Mapping屬性選項卡用於設置Source dataset和Sink dataset之間的列映射,並可以設置列類型的轉換。
4,調試Pipeline
點擊“Debug”對當前Pipeline進行調試
到此,一個簡單的ADF就創建完成。
參考文檔:
Quickstart: Create a data factory by using the Azure Data Factory UI