ADF 第五篇：轉換數據

本文轉載自查看原文 2020-12-17 18:45 732 Azure Data Factory/ Azure/ ETL

Azure Data Factory 系列博客：

映射數據流（Mapping Data Flow）的核心功能是轉換數據，數據流的結構分為Source、轉換和Sink（也就是Destination），這種結構非常類似於SSIS的數據流。

在數據流中，數據就像流水（stream）一樣，從上一個組件，流向下一個組件。組件之間有graph相連接，把各個組件連接為一個轉換流（transformation stream），在數據流面板中，graph顯示為一根線，用於表示數據從一個組件流向另一個組件的路徑。

轉換組件是數據流的核心組件，每一個轉換組件都有輸入和輸出，接收上一個路徑上的組件輸入的數據，並向下一個路徑上的組件輸出數據。

一，創建映射數據流面板

打開一個數據工廠，切換到Author面板中，從“Factory Resources”中選擇“Data flows”，從后面的“...” (Actions)中選擇“New mapping dataflow”，新建數據流面板：

初始的數據流面板如下圖所示，dataflow1是數據流面板的名稱，面板的中央是畫布，可以向畫布中添加Source、轉換組件和Sink（destination）。

從dataflow的面板中點擊“Add Source”為數據流添加源，添加數據源之后，source1是源的名稱，右下方有一個“+”號，表示為源添加轉換功能。

在選中Source之后，面板中央的下方區域顯示為Source的屬性面板，

1，Source setting 面板

Source settings 用於設置Source的屬性，常用的Source屬性是Source type（源類型），最常用的類型是Dataset，表示從Dataset中獲取數據。

2，Optimize 面板

Optimize 選項卡用於設置分區架構，可以設置Partition option、Partition type和 Number of partitions，分區會優化數據流的性能。

3，Inspect面板

Inspect 選項卡用於顯示數據流的元數據，該選項卡是一個只讀的視圖，從該選項卡中可以看到數據流的列數量（column counts），列變化、增加的列、類的數據類型、列的順序等。

點擊Source右小角的“+”號，為源添加轉換功能，這是數據流的核心功能，常用的轉換功能分為四組：Multiple inputs/outputs、Schema modifier、Row modifier和Destination。

1，多輸入/輸出（Multiple inputs/outputs）

Join：用於表示連接，把多個Source（Input）連接成一個輸出流
Conditional Split：條件拆分，把一個Source 按照條件拆分成多個輸出流
Exists：需要兩個輸入Left stream和Right stream，按照指定的條件和Exist type輸出數據，如果Exist type是Exists，那么表示輸出Left Stream存在於Right stream的數據；如果Exist type是Doesn't exist，那么表示輸出Left stream不存在於Right stream的數據。
Union：把多個輸入合並
Lookup：需要兩個輸入，Primary stream和Lookup stream，把Primary stream中存在於Lookup stream中的數據輸出。

2，Schema Modifier

對列進行修改：