HIVE高級(15):優化(15) Explain 查看執行計划（三）

本文轉載自查看原文 2021-08-18 00:10 100 HIVE

0 簡介

Hive SQL的執行計划描述SQL實際執行的整體輪廓，通過執行計划能了解SQL程序在轉換成相應計算引擎的執行邏輯，掌握了執行邏輯也就能更好地把握程序出現的瓶頸點，從而能夠實現更有針對性的優化。此外還能幫助開發者識別看似等價的SQL其實是不等價的，看似不等價的SQL其實是等價的SQL。可以說執行計划是打開SQL優化大門的一把鑰匙。

要想學SQL執行計划，就需要學習查看執行計划的命令：explain，在查詢語句的SQL前面加上關鍵字explain是查看執行計划的基本方法。

學會explain，能夠給我們工作中使用hive帶來極大的便利！

查看SQL的執行計划

Hive提供的執行計划目前可以查看的信息有以下幾種：

explain：查看執行計划的基本信息；
explain dependency：dependency在explain語句中使用會產生有關計划中輸入的額外信息。它顯示了輸入的各種屬性；
explain authorization：查看SQL操作相關權限的信息；
explain vectorization：查看SQL的向量化描述信息，顯示為什么未對Map和Reduce進行矢量化。從 Hive 2.3.0 開始支持；
explain analyze：用實際的行數注釋計划。從 Hive 2.2.0 開始支持；
explain cbo：輸出由Calcite優化器生成的計划。CBO 從 Hive 4.0.0 版本開始支持；
explain locks：這對於了解系統將獲得哪些鎖以運行指定的查詢很有用。LOCKS 從 Hive 3.2.0 開始支持；
explain ast：輸出查詢的抽象語法樹。AST 在 Hive 2.1.0 版本刪除了，存在bug，轉儲AST可能會導致OOM錯誤，將在4.0.0版本修復；
explain extended：加上 extended 可以輸出有關計划的額外信息。這通常是物理信息，例如文件名，這些額外信息對我們用處不大；

1. explain

1.1 explain 的用法

Hive提供了explain命令來展示一個查詢的執行計划，這個執行計划對於我們了解底層原理，Hive 調優，排查數據傾斜等很有幫助。

使用語法如下：

explain query;

在 hive cli 中輸入以下命令(hive 2.3.7)：

explain select sum(id) from test1;

得到結果：

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1

STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: test1
            Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: id (type: int)
              outputColumnNames: id
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
              Group By Operator
                aggregations: sum(id)
                mode: hash
                outputColumnNames: _col0
                Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
                Reduce Output Operator
                  sort order:
                  Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
                  value expressions: _col0 (type: bigint)
      Reduce Operator Tree:
        Group By Operator
          aggregations: sum(VALUE._col0)
          mode: mergepartial
          outputColumnNames: _col0
          Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
          File Output Operator
            compressed: false
            Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
            table:
                input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink

看完以上內容有什么感受，是不是感覺都看不懂，不要着急，下面將會詳細講解每個參數，相信你學完下面的內容之后再看 explain 的查詢結果將游刃有余。

一個HIVE查詢被轉換為一個由一個或多個stage組成的序列（有向無環圖DAG）。這些stage可以是MapReduce stage，也可以是負責元數據存儲的stage，也可以是負責文件系統的操作（比如移動和重命名）的stage。

我們將上述結果拆分看，先從最外層開始，包含兩個大的部分：

stage dependencies：各個stage之間的依賴性
stage plan：各個stage的執行計划

先看第一部分 stage dependencies ，包含兩個 stage，Stage-1 是根stage，說明這是開始的stage，Stage-0 依賴 Stage-1，Stage-1執行完成后執行Stage-0。

再看第二部分 stage plan，里面有一個 Map Reduce，一個MR的執行計划分為兩個部分：

Map Operator Tree：MAP端的執行計划樹
Reduce Operator Tree：Reduce端的執行計划樹

這兩個執行計划樹里面包含這條sql語句的 operator：

TableScan：表掃描操作，map端第一個操作肯定是加載表，所以就是表掃描操作，常見的屬性：

alias：表名稱
Statistics：表統計信息，包含表中數據條數，數據大小等

Select Operator：選取操作，常見的屬性：

expressions：需要的字段名稱及字段類型
outputColumnNames：輸出的列名稱
Statistics：表統計信息，包含表中數據條數，數據大小等

Group By Operator：分組聚合操作，常見的屬性：

aggregations：顯示聚合函數信息
mode：聚合模式，值有 hash：隨機聚合，就是hash partition；partial：局部聚合；final：最終聚合
keys：分組的字段，如果沒有分組，則沒有此字段
outputColumnNames：聚合之后輸出列名
Statistics：表統計信息，包含分組聚合之后的數據條數，數據大小等

Reduce Output Operator：輸出到reduce操作，常見屬性：

sort order：值為空不排序；值為 + 正序排序，值為 - 倒序排序；值為 +- 排序的列為兩列，第一列為正序，第二列為倒序

Filter Operator：過濾操作，常見的屬性：

predicate：過濾條件，如sql語句中的where id>=1，則此處顯示(id >= 1)

Map Join Operator：join 操作，常見的屬性：

condition map：join方式，如Inner Join 0 to 1 Left Outer Join0 to 2
keys: join 的條件字段
outputColumnNames：join 完成之后輸出的字段
Statistics：join 完成之后生成的數據條數，大小等

File Output Operator：文件輸出操作，常見的屬性

compressed：是否壓縮
table：表的信息，包含輸入輸出文件格式化方式，序列化方式等

Fetch Operator 客戶端獲取數據操作，常見的屬性：

limit，值為 -1 表示不限制條數，其他值為限制的條數

1.2 explain 的使用場景

本節介紹 explain 能夠為我們在生產實踐中帶來哪些便利及解決我們哪些迷惑

https://www.cnblogs.com/qiu-hua/p/14472190.html

2. explain dependency的用法

explain dependency用於描述一段SQL需要的數據來源，輸出是一個json格式的數據，里面包含以下兩個部分的內容：

input_partitions：描述一段SQL依賴的數據來源表分區，里面存儲的是分區名的列表，如果整段SQL包含的所有表都是非分區表，則顯示為空。
input_tables：描述一段SQL依賴的數據來源表，里面存儲的是Hive表名的列表。

使用explain dependency查看SQL查詢非分區普通表，在 hive cli 中輸入以下命令：

explain dependency select s_age,count(1) num from student_orc;

得到結果：

{"input_partitions":[],"input_tables":[{"tablename":"default@student_tb _orc","tabletype":"MANAGED_TABLE"}]}

使用explain dependency查看SQL查詢分區表，在 hive cli 中輸入以下命令：

explain dependency select s_age,count(1) num from student_orc_partition;

得到結果：

{"input_partitions":[{"partitionName":"default@student_orc_partition@ part=0"}, 
{"partitionName":"default@student_orc_partition@part=1"}, 
{"partitionName":"default@student_orc_partition@part=2"}, 
{"partitionName":"default@student_orc_partition@part=3"},
{"partitionName":"default@student_orc_partition@part=4"}, 
{"partitionName":"default@student_orc_partition@part=5"},
{"partitionName":"default@student_orc_partition@part=6"},
{"partitionName":"default@student_orc_partition@part=7"},
{"partitionName":"default@student_orc_partition@part=8"},
{"partitionName":"default@student_orc_partition@part=9"}], 
"input_tables":[{"tablename":"default@student_orc_partition", "tabletype":"MANAGED_TABLE"}]

explain dependency的使用場景有兩個：

場景一：快速排除。快速排除因為讀取不到相應分區的數據而導致任務數據輸出異常。例如，在一個以天分區的任務中，上游任務因為生產過程不可控因素出現異常或者空跑，導致下游任務引發異常。通過這種方式，可以快速查看SQL讀取的分區是否出現異常。
場景二：理清表的輸入，幫助理解程序的運行，特別是有助於理解有多重子查詢，多表連接的依賴輸入。

下面通過兩個案例來看explain dependency的實際運用：

案例一：識別看似等價的代碼

對於剛接觸SQL的程序員，很容易將

select * from a inner join b on a.no=b.no and a.f>1 and a.f<3;

等價於

select * from a inner join b on a.no=b.no where a.f>1 and a.f<3;

我們可以通過案例來查看下它們的區別：

代碼1：

select 
a.s_no 
from student_orc_partition a 
inner join 
student_orc_partition_only b 
on a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2;

代碼2：

select 
a.s_no 
from student_orc_partition a 
inner join 
student_orc_partition_only b 
on a.s_no=b.s_no and a.part=b.part 
where a.part>=1 and a.part<=2;

我們看下上述兩段代碼explain dependency的輸出結果：

代碼1的explain dependency結果

{"input_partitions": 
[{"partitionName":"default@student_orc_partition@part=0"}, 
{"partitionName":"default@student_orc_partition@part=1"}, 
{"partitionName":"default@student_orc_partition@part=2"},
{"partitionName":"default@student_orc_partition_only@part=1"}, 
{"partitionName":"default@student_orc_partition_only@part=2"}], 
"input_tables": [{"tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE"}, {"tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"}]}

代碼2的explain dependency結果：

{"input_partitions": 
[{"partitionName":"default@student_orc_partition@part=1"}, 
{"partitionName" : "default@student_orc_partition@part=2"},
{"partitionName" :"default@student_orc_partition_only@part=1"},
{"partitionName":"default@student_orc_partition_only@part=2"}], 
"input_tables": [{"tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE"}, {"tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"}]}

通過上面的輸出結果可以看到，其實上述的兩個SQL並不等價，代碼1在內連接（inner join）中的連接條件（on）中加入非等值的過濾條件后，並沒有將內連接的左右兩個表按照過濾條件進行過濾，內連接在執行時會多讀取part=0的分區數據。而在代碼2中，會過濾掉不符合條件的分區。

案例二：識別SQL讀取數據范圍的差別

代碼1：

explain dependency
select
a.s_no 
from student_orc_partition a 
left join 
student_orc_partition_only b 
on a.s_no=b.s_no and a.part=b.part and b.part>=1 and b.part<=2;

代碼2：

explain dependency 
select 
a.s_no 
from student_orc_partition a 
left join 
student_orc_partition_only b 
on a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2;

以上兩個代碼的數據讀取范圍是一樣的嗎？答案是不一樣，我們通過explain dependency來看下：

代碼1的explain dependency結果：

{"input_partitions": 
[{"partitionName": "default@student_orc_partition@part=0"}, 
{"partitionName":"default@student_orc_partition@part=1"}, …中間省略7個分區
{"partitionName":"default@student_orc_partition@part=9"}, 
{"partitionName":"default@student_orc_partition_only@part=1"}, 
{"partitionName":"default@student_orc_partition_only@part=2"}], 
"input_tables": [{"tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE"}, {"tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"}]}

代碼2的explain dependency結果：

{"input_partitions": 
[{"partitionName":"default@student_orc_partition@part=0"}, 
{"partitionName":"default@student_orc_partition@part=1"}, …中間省略7個分區 
{"partitionName":"default@student_orc_partition@part=9"}, 
{"partitionName":"default@student_orc_partition_only@part=0"}, 
{"partitionName":"default@student_orc_partition_only@part=1"}, …中間省略7個分區 
{"partitionName":"default@student_orc_partition_only@part=9"}],
"input_tables": [{"tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE"}, {"tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"}]}

可以看到，對左外連接在連接條件中加入非等值過濾的條件，如果過濾條件是作用於右表（b表）有起到過濾的效果，則右表只要掃描兩個分區即可，但是左表（a表）會進行全表掃描。如果過濾條件是針對左表，則完全沒有起到過濾的作用，那么兩個表將進行全表掃描。這時的情況就如同全外連接一樣都需要對兩個數據進行全表掃描。

在使用過程中，容易認為代碼片段2可以像代碼片段1一樣進行數據過濾，通過查看explain dependency的輸出結果，可以知道不是如此。

3. explain authorization 的用法

通過explain authorization可以知道當前SQL訪問的數據來源（INPUTS）和數據輸出（OUTPUTS），以及當前Hive的訪問用戶（CURRENT_USER）和操作（OPERATION）。

在 hive cli 中輸入以下命令：

explain authorization 
select variance(s_score) from student_tb_orc;

結果如下：

INPUTS: 
  default@student_tb_orc 
OUTPUTS: 
  hdfs://node01:8020/tmp/hive/hdfs/cbf182a5-8258-4157-9194- 90f1475a3ed5/-mr-10000 
CURRENT_USER: 
  hdfs 
OPERATION: 
  QUERY 
AUTHORIZATION_FAILURES: 
  No privilege 'Select' found for inputs { database:default, table:student_ tb_orc, columnName:s_score}

從上面的信息可知：

上面案例的數據來源是defalut數據庫中的 student_tb_orc表；

數據的輸出路徑是hdfs://node01:8020/tmp/hive/hdfs/cbf182a5-8258-4157-9194-90f1475a3ed5/-mr-10000；

當前的操作用戶是hdfs，操作是查詢；

觀察上面的信息我們還會看到AUTHORIZATION_FAILURES信息，提示對當前的輸入沒有查詢權限，但如果運行上面的SQL的話也能夠正常運行。為什么會出現這種情況？Hive在默認不配置權限管理的情況下不進行權限驗證，所有的用戶在Hive里面都是超級管理員，即使不對特定的用戶進行賦權，也能夠正常查詢。

最后

通過上面對explain的介紹，可以發現explain中有很多值得我們去研究的內容，讀懂 explain 的執行計划有利於我們優化Hive SQL，同時也能提升我們對SQL的掌控力。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 ClickHouse 高級（一）優化(1)Explain 查看執行計划 oracle查看執行計划explain plan FOR oracle查看執行計划explain plan FOR [Hive]-常規優化以及執行計划解析 Hive底層原理：explain執行計划詳解 MySQL EXPLAIN 命令: 查看查詢執行計划 EXPLAIN 執行計划詳解 explain 執行計划詳解 teradata中EXPLAIN執行計划總結 oracle執行計划(Explain Plan for