Hive SQL執行流程分析


轉自 http://www.tuicool.com/articles/qyUzQj 

最近在研究Impala,還是先回顧下Hive的SQL執行流程吧。

Hive有三種用戶接口:

cli (Command line interface) bin/hive或bin/hive –service cli 命令行方式(默認)
hive-server/hive-server2 bin/hive –service hiveserver 或bin/hive –service hiveserver2 通過JDBC/ODBC和Thrift訪問(Impala通過這種方式借用hive-metastore)
hwi (Hive web interface) bin/hive –service hwi 通過瀏覽器訪問

在hive shell中輸入“show tables;”實際執行的是:

bin/hadoop jar hive/lib/hive-cli-0.9.0.jar org.apache.hadoop.hive.cli.CliDriver -e 'SHOW TABLES;'

CLI入口函數:cli.CliDriver.main()

讀入參數->建立SessionState並導入配置->處理輸入文件中指令CliDriver.processFile();或交互型指令CliDriver.processLine()->解析輸入CliDriver.processCmd()

(1)    如果是quit或者exit,退出

(2)    以source開頭的,讀取外部文件並執行文件中的HiveQL

(3)    !開頭的命令,執行操作系統命令(如!ls,列出當前目錄的文件信息)

(4)    list,列出jar/file/archive

(5)    其他命令,則生成調用相應的CommandProcessor處理,進入CliDriver.processLocalCmd()

CliDriver.processLocalCmd()

set/dfs/add/delete指令交給指定的CommandProcessor處理,其余的交給org.apache.hadoop.hive.ql.Driver.run()

org.apache.hadoop.hive.ql.Driver類是查詢的起點,run()方法會先后調用compile()和execute()兩個函數來完成查詢,所以一個command的查詢分為compile和execute兩個階段。

Compile

(1)利用antlr生成的HiveLexer.java和HiveParser.java類,將HiveQL轉換成抽象語法樹(AST)。

首先使用antlr工具將srcqlsrcjavaorgapachehadoophiveqlparsehive.g編譯成以下幾個文件:HiveParser.java, Hive.tokens, Hive__.g, HiveLexer.java

HiveLexer.java和HiveParser.java分別是詞法和語法分析類文件,Hive__.g是HiveLexer.java對應的詞法分析規范,Hive.tokens定義了詞法分析后所有的token。

然后沿着“Driver.compile()->ParseDriver.parse(command, ctx)->HiveParserX.statement()->antlr中的API”這個調用關系把輸入的HiveQL轉化成ASTNode類型的語法樹。HiveParserX是由antlr生成的HiveParser類的子類。

(2)利用對應的SemanticAnalyzer類,將AST樹轉換成Map-reduce task

a)         AST -> Operator DAG

b)        優化Operator DAG

c)         Oprator DAG -> Map-reduce task

首先接着上一步生成的語法樹ASTNode, SemanticAnalyzerFactory會根據ASTNode的token類型生成不同的SemanticAnalyzer (所有這些SemanticAnalyzer都繼承自BaseSemanticAnalyzer)

1)      ExplainSemanticAnalyzer

2)      LoadSemanticAnalyzer

3)      ExportSemanticAnalyzer

4)      DDLSemanticAnalyzer

5)      FunctionSemanticAnalyzer

6)      SemanticAnalyzer

然后調用BaseSemanticAnalyzer.analyze()->BaseSemanticAnalyzer. analyzeInternal()。

下面以最常見的select * from table類型的查詢為例,進入的子類是SemanticAnalyzer. analyzeInternal(),這個函數的邏輯如下:

1)      doPhase1():將sql語句中涉及到的各種信息存儲起來,存到QB中去,留着后面用。

2)      getMetaData():獲取元數據信息,主要是sql中涉及到的 表 和 元數據 的關聯

3)      genPlan():生成operator tree/DAG

4)      optimize:優化,對operator tree/DAG 進行一些優化操作,例如列剪枝等(目前只能做rule-based optimize,不能做cost-based optimize)

5)      genMapRedTasks():將operator tree/DAG 通過一定的規則生成若干相互依賴的MR任務

Execute

將Compile階段生成的task信息序列化到plan.xml,然后啟動map-reduce,在configure時反序列化plan.xml

實例分析:

在hive中有這樣一張表:

uid

fruit_name

count

a

apple

5

a

orange

3

a

apple

2

b

banana

1

執行如下的查詢:

SELECT uid, SUM(count) FROM logs GROUP BY uid

通過explain命令可以查看執行計划:

EXPLAIN SELECT uid, SUM(count) FROM logs GROUP BY uid;

依照hive.g的語法規則,生成AST如下

ABSTRACT SYNTAX TREE:
(
  TOK_QUERY
  (TOK_FROM (TOK_TABREF (TOK_TABNAME logs)))
  (
    TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) ( TOK_SELECT (TOK_SELEXPR (TOK_TABLE_OR_COL uid)) (TOK_SELEXPR (TOK_FUNCTION sum (TOK_TABLE_OR_COL count))) ) (TOK_GROUPBY (TOK_TABLE_OR_COL uid)) ) )

生成的執行計划operator tree/DAG如下:

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 is a root stage

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Alias -> Map Operator Tree:
        logs
          TableScan // 掃描表
            alias: logs
            Select Operator //選擇字段 expressions: expr: uid type: string expr: count type: int outputColumnNames: uid, count Group By Operator //在map端先做一次聚合,減少shuffle數據量 aggregations: expr: sum(count) //聚集函數 bucketGroup: false keys: expr: uid type: string mode: hash outputColumnNames: _col0, _col1 Reduce Output Operator //輸出key,value給reduce key expressions: expr: _col0 type: string sort order: + Map-reduce partition columns: expr: _col0 type: string tag: -1 value expressions: expr: _col1 type: bigint Reduce Operator Tree: Group By Operator aggregations: expr: sum(VALUE._col0) //聚合 bucketGroup: false keys: expr: KEY._col0 type: string mode: mergepartial outputColumnNames: _col0, _col1 Select Operator //選擇字段 expressions: expr: _col0 type: string expr: _col1 type: bigint outputColumnNames: _col0, _col1 File Output Operator //輸出到文件 compressed: false GlobalTableId: 0 table: input format: org.apache.hadoop.mapred.TextInputFormat output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat Stage: Stage-0 Fetch Operator limit: -1

Hive優化策略:

1. 去除查詢中不需要的column

2. Where條件判斷等在TableScan階段就進行過濾

3. 利用Partition信息,只讀取符合條件的Partition

4. Map端join,以大表作驅動,小表載入所有mapper內存中

5. 調整Join順序,確保以大表作為驅動表

6. 對於數據分布不均衡的表Group by時,為避免數據集中到少數的reducer上,分成兩個map-reduce階段。第一個階段先用Distinct列進行shuffle,然后在reduce端部分聚合,減小數據規模,第二個map-reduce階段再按group-by列聚合。

7. 在map端用hash進行部分聚合,減小reduce端數據處理規模。

參考文獻:

http://fatkun.com/2013/01/hive-group-by.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM