來源:https://mp.weixin.qq.com/s/5Kk7DaSLSsL03Ifz8w-YyQ
本節結構采用宏觀着眼,微觀入手,從整體到細節的方式剖析 Hive SQL 底層原理。第一節先介紹 Hive 底層的整體執行流程,然后第二節介紹執行流程中的 SQL 編譯成 MapReduce 的過程,第三節剖析 SQL 編譯成 MapReduce 的具體實現原理。
Hive 底層執行架構
我們先來看下 Hive 的底層執行架構圖, Hive 的主要組件與 Hadoop 交互的過程:
在 Hive 這一側,總共有五個組件:
-
UI:用戶界面。可看作我們提交SQL語句的命令行界面。
-
DRIVER:驅動程序。接收查詢的組件。該組件實現了會話句柄的概念。
-
COMPILER:編譯器。負責將 SQL 轉化為平台可執行的執行計划。對不同的查詢塊和查詢表達式進行語義分析,並最終借助表和從 metastore 查找的分區元數據來生成執行計划。
-
METASTORE:元數據庫。存儲 Hive 中各種表和分區的所有結構信息。
-
EXECUTION ENGINE:執行引擎。負責提交 COMPILER 階段編譯好的執行計划到不同的平台上。
上圖的基本流程是:
步驟1:UI 調用 DRIVER 的接口;
步驟2:DRIVER 為查詢創建會話句柄,並將查詢發送到 COMPILER(編譯器)生成執行計划;
步驟3和4:編譯器從元數據存儲中獲取本次查詢所需要的元數據,該元數據用於對查詢樹中的表達式進行類型檢查,以及基於查詢謂詞修建分區;
步驟5:編譯器生成的計划是分階段的DAG,每個階段要么是 map/reduce 作業,要么是一個元數據或者HDFS上的操作。將生成的計划發給 DRIVER。
如果是 map/reduce 作業,該計划包括 map operator trees 和一個 reduce operator tree,執行引擎將會把這些作業發送給 MapReduce :
步驟6、6.1、6.2和6.3:執行引擎將這些階段提交給適當的組件。在每個 task(mapper/reducer) 中,從HDFS文件中讀取與表或中間輸出相關聯的數據,並通過相關算子樹傳遞這些數據。最終這些數據通過序列化器寫入到一個臨時HDFS文件中(如果不需要 reduce 階段,則在 map 中操作)。臨時文件用於向計划中后面的 map/reduce 階段提供數據。
步驟7、8和9:最終的臨時文件將移動到表的位置,確保不讀取臟數據(文件重命名在HDFS中是原子操作)。對於用戶的查詢,臨時文件的內容由執行引擎直接從HDFS讀取,然后通過Driver發送到UI。
Hive SQL 編譯成 MapReduce 過程
編譯 SQL 的任務是在上節中介紹的 COMPILER(編譯器組件)中完成的。Hive將SQL轉化為MapReduce任務,整個編譯過程分為六個階段:
- 詞法、語法解析: Antlr 定義 SQL 的語法規則,完成 SQL 詞法,語法解析,將 SQL 轉化為抽象語法樹 AST Tree;
Antlr是一種語言識別的工具,可以用來構造領域語言。使用Antlr構造特定的語言只需要編寫一個語法文件,定義詞法和語法替換規則即可,Antlr完成了詞法分析、語法分析、語義分析、中間代碼生成的過程。
-
語義解析: 遍歷 AST Tree,抽象出查詢的基本組成單元 QueryBlock;
-
生成邏輯執行計划: 遍歷 QueryBlock,翻譯為執行操作樹 OperatorTree;
-
優化邏輯執行計划: 邏輯層優化器進行 OperatorTree 變換,合並 Operator,達到減少 MapReduce Job,減少數據傳輸及 shuffle 數據量;
-
生成物理執行計划: 遍歷 OperatorTree,翻譯為 MapReduce 任務;
-
優化物理執行計划: 物理層優化器進行 MapReduce 任務的變換,生成最終的執行計划。
下面對這六個階段詳細解析:
為便於理解,我們拿一個簡單的查詢語句進行展示,對5月23號的地區維表進行查詢:
select * from dim.dim_region where dt = '2021-05-23';
階段一:詞法、語法解析
根據Antlr定義的sql語法規則,將相關sql進行詞法、語法解析,轉化為抽象語法樹AST Tree:
ABSTRACT SYNTAX TREE: TOK_QUERY TOK_FROM TOK_TABREF TOK_TABNAME dim dim_region TOK_INSERT TOK_DESTINATION TOK_DIR TOK_TMP_FILE TOK_SELECT TOK_SELEXPR TOK_ALLCOLREF TOK_WHERE = TOK_TABLE_OR_COL dt '2021-05-23'
階段二:語義解析
遍歷AST Tree,抽象出查詢的基本組成單元QueryBlock:
AST Tree生成后由於其復雜度依舊較高,不便於翻譯為mapreduce程序,需要進行進一步抽象和結構化,形成QueryBlock。
QueryBlock是一條SQL最基本的組成單元,包括三個部分:輸入源,計算過程,輸出。簡單來講一個QueryBlock就是一個子查詢。
QueryBlock的生成過程為一個遞歸過程,先序遍歷 AST Tree ,遇到不同的 Token 節點(理解為特殊標記),保存到相應的屬性中。
階段三:生成邏輯執行計划
遍歷QueryBlock,翻譯為執行操作樹OperatorTree:
Hive最終生成的MapReduce任務,Map階段和Reduce階段均由OperatorTree組成。
基本的操作符包括:
- TableScanOperator
- SelectOperator
- FilterOperator
- JoinOperator
- GroupByOperator
- ReduceSinkOperator`
Operator在Map Reduce階段之間的數據傳遞都是一個流式的過程。每一個Operator對一行數據完成操作后之后將數據傳遞給childOperator計算。
由於Join/GroupBy/OrderBy均需要在Reduce階段完成,所以在生成相應操作的Operator之前都會先生成一個ReduceSinkOperator,將字段組合並序列化為Reduce Key/value, Partition Key。
階段四:優化邏輯執行計划
Hive中的邏輯查詢優化可以大致分為以下幾類:
- 投影修剪
- 推導傳遞謂詞
- 謂詞下推
- 將Select-Select,Filter-Filter合並為單個操作
- 多路 Join
- 查詢重寫以適應某些列值的Join傾斜
階段五:生成物理執行計划
生成物理執行計划即是將邏輯執行計划生成的OperatorTree轉化為MapReduce Job的過程,主要分為下面幾個階段:
- 對輸出表生成MoveTask
- 從OperatorTree的其中一個根節點向下深度優先遍歷
- ReduceSinkOperator標示Map/Reduce的界限,多個Job間的界限
- 遍歷其他根節點,遇過碰到JoinOperator合並MapReduceTask
- 生成StatTask更新元數據
- 剪斷Map與Reduce間的Operator的關系
階段六:優化物理執行計划
Hive中的物理優化可以大致分為以下幾類:
- 分區修剪(Partition Pruning)
- 基於分區和桶的掃描修剪(Scan pruning)
- 如果查詢基於抽樣,則掃描修剪
- 在某些情況下,在 map 端應用 Group By
- 在 mapper 上執行 Join
- 優化 Union,使Union只在 map 端執行
- 在多路 Join 中,根據用戶提示決定最后流哪個表
- 刪除不必要的 ReduceSinkOperators
- 對於帶有Limit子句的查詢,減少需要為該表掃描的文件數
- 對於帶有Limit子句的查詢,通過限制 ReduceSinkOperator 生成的內容來限制來自 mapper 的輸出
- 減少用戶提交的SQL查詢所需的Tez作業數量
- 如果是簡單的提取查詢,避免使用MapReduce作業
- 對於帶有聚合的簡單獲取查詢,執行不帶 MapReduce 任務的聚合
- 重寫 Group By 查詢使用索引表代替原來的表
- 當表掃描之上的謂詞是相等謂詞且謂詞中的列具有索引時,使用索引掃描
經過以上六個階段,SQL 就被解析映射成了集群上的 MapReduce 任務。
SQL編譯成MapReduce具體原理
在階段五-生成物理執行計划,即遍歷 OperatorTree,翻譯為 MapReduce 任務,這個過程具體是怎么轉化的呢
我們接下來舉幾個常用 SQL 語句轉化為 MapReduce 的具體步驟:
Join的實現原理
以下面這個SQL為例,講解 join 的實現:
select u.name, o.orderid from order o join user u on o.uid = u.uid;
在map的輸出value中為不同表的數據打上tag標記,在reduce階段根據tag判斷數據來源。MapReduce的過程如下:
Group By的實現原理
以下面這個SQL為例,講解 group by 的實現:
select rank, isonline, count(*) from city group by rank, isonline;
將GroupBy的字段組合為map的輸出key值,利用MapReduce的排序,在reduce階段保存LastKey區分不同的key。MapReduce的過程如下:
Distinct的實現原理
以下面這個SQL為例,講解 distinct 的實現:
select dealid, count(distinct uid) num from order group by dealid;
當只有一個distinct字段時,如果不考慮Map階段的Hash GroupBy,只需要將GroupBy字段和Distinct字段組合為map輸出key,利用mapreduce的排序,同時將GroupBy字段作為reduce的key,在reduce階段保存LastKey即可完成去重: