基於Hive進行數倉建設的資源元數據信息統計：Hive篇

本文轉載自查看原文 2021-04-06 11:19 609 Hive/ 數據倉庫/ 元數據/ 大數據

在數據倉庫建設中，元數據管理是非常重要的環節之一。根據Kimball的數據倉庫理論，可以將元數據分為這三類：

技術元數據，如表的存儲結構結構、文件的路徑
業務元數據，如血緣關系、業務的歸屬
過程元數據，如表每天的行數、占用HDFS空間、更新時間

而基於這3類元數據"搭建"起來的元數據系統，通常又會實現如下核心功能：

1. 血緣關系

如表級別/字段級別的血緣關系，這些主要體現在我們日常的SQL和ETL任務里。

2. 大數據集群計算資源管理

針對利用不同的計算引擎如Spark/Flink/Mapreduce，可以到Yarn（也可能是其他資源管理器）上采集相關任務的使用情況。如CPU、內存、磁盤IO使用情況。
然后可以把這些資源使用情況繪制成圖。通過可視化界面可以直觀發現某些任務中的異常情況，以及發現某些嚴重消耗資源的表或業務，及時通知相關負責人有針對性的分析處理和優化。

3. 數據如何同步以及權限管理等

4. Hive庫表元數據信息統計

這里對Hive庫表統計信息主要是指：行數、文件數、所占HDFS存儲大小、最后一次操作時間等。

通過持續不斷的采集這些指標，形成可視化曲線圖，數據倉庫相關人員都可以從這個圖中發現數據規律或數據質量問題。對於利用數倉進行業務開發的人員，可以通過這些曲線圖來分析業務量變化趨勢。在此基礎之上，還可以做數據質量校驗、數值分布探查等功能。

本文主要介紹如何利用Hive進行對Hive庫、分區表/非分區表相關指標的統計。

而在我們實際生產中，我們不僅可以通過如下的方式及時更新和獲取Hive元數據庫中相關表記錄的指標信息，我們也可以參考下述相關SQL在Hive/Spark底層的執行過程，實現我們自己的一整套業務邏輯。

1. Hive元數據庫中主要涉及的元數據表

DBS：存儲Hive中所有數據庫的基本信息，如庫ID、表ID、創建時間、用戶、表名、表的類型等。
TBS：存儲Hive表、視圖等的基本信息，如表ID、表名、創建時間、用戶、表類型等。
TABLE_PARAMS：存儲表等的屬性信息，表ID、PARAM_KEY（如EXTERNAL）、PARAM_VALUE（與PARAM_KEY對應的值）。
PARTITIONS：存儲Hive分區統計信息相關的元數據，如分區ID、表ID、創建時間、分區名（partCol=partVal）等信息。
PARTITION_PARAMS：存儲Hive分區統計信息相關的元數據，如分區ID、PARAM_KEY（如文件數）、PARAM_VALUE（與
PARAM_KEY對應的值）。

2. Hive和Spark支持的Hive庫表元數據信息統計

2.1 Hive

2.1.1 語法支持

默認情況下，在對Hive表進行數據insert時，會自動更新元數據庫表中的統計信息，但主要是文件數、占用HDFS空間大小等，不包括行數。

1）分區表

Hive分區表元數據統計信息SQL語法需要指定到具體分區，如分區字段或者分區名=分區值

-- 1. 統計更新tab_partition的分區字段為dt的所有元數據信息
analyze table tab_partition partition(dt) COMPUTE STATISTICS;

-- 2. 統計更新單個分區元數據統計信息
analyze table tab_partition partition(dt='20200722000000') COMPUTE STATISTICS;

在Hive shell中執行analyze時，如果進行了元數據信息統計會打印類似如下信息：

Partition default.test_partition2{dt=20200718000000} stats: [numFiles=1, numRows=2, totalSize=418, rawDataSize=6]

2）非分區表

-- 非分區表粒度到表
analyze table tab_no_partition COMPUTE STATISTICS;

2.1.2 Hive元數據庫中涉及的元數據統計信息字段

1）Hive分區表

-- 表級別：TABLE_PARAMS
-- Hive分區級別：PARTITION_PARAMS

numFiles：文件數
numRows：行數
totalSize：占用HDFS空間大小
rawDataSize：原生數據大小
transient_lastDdlTime：最近一次操作時間

2）Hive非分區表

對於Hive分區表，因為最小粒度是表級別。因此，元數據統計信息也是表級別的。

-- TABLE_PARAMS
numFiles、numRows、totalSize、rawDataSize、transient_lastDdlTime：含義同上

3. Hive

默認情況下，在對Hive表進行數據insert時，Hive會自動更新元數據統計信息，但是不統計行數。如需獲取numRow，可以再次執行analyze SQL

1）直接通過Hive進行表的創建

以分區表testdb.test_analyze為例，表剛創建時Hive元數據庫中表TABLE_PARAMS的信息：

+------+---------------------+-----------+
|TBL_ID|           PARAM_KEY |PARAM_VALUE|
+------+---------------------+-----------+
|  3016|            EXTERNAL |       TRUE|
|  3016|transient_lastDdlTime| 1595405772|
+------+---------------------+-----------+

2）對表testdb.test_analyze進行數據的保存和元數據信息統計：

insert overwrite table testdb.test_analyze partition(partCol=20200721000000) select id,name from testdb.test_partition1 where partCol=20190626000000;

analyze table testdb.test_analyze partition(partCol='20200721000000') COMPUTE STATISTICS;

3）連接Hive元數據庫，查詢testdb.test_analyze的元數據統計信息

-- 1. 連接Hive元數據庫
connect jdbc where
url="jdbc:mysql://localhost:3306/hive?useUnicode=true&amp;characterEncoding=UTF-8"
and driver="com.mysql.jdbc.Driver"
and user="root"
and password="root"
as db_1;

-- 2. 將TABLE_PARAMS、DBS、TBLS、PARTITIONS、PARTITION_PARAMS注冊為臨時表

-- load jdbc.`db_1.TABLE_PARAMS` as TABLE_PARAMS ;
load jdbc.`db_1.DBS` as dbs;
load jdbc.`db_1.TBLS` as tbls;
load jdbc.`db_1.PARTITIONS` as partitions;
load jdbc.`db_1.PARTITION_PARAMS` as partition_params;

-- 3. 獲取testdb.test_analyze的元數據統計信息
select d.NAME,t.TBL_NAME,t.TBL_ID,p.PART_ID,p.PART_NAME,a.*   
from tbls t   
left join dbs d  
on t.DB_ID = d.DB_ID  
left join partitions p  
on t.TBL_ID = p.TBL_ID   
left join partition_params a  
on p.PART_ID=a.PART_ID
where t.TBL_NAME='test_analyze' and d.NAME='testdb';

4）結果

-- 測試時，testdb.test_analyze只有partCol=20200721000000的分區。因此，統計信息也只有partCol=20200721000000的

+------+------------+------+-------+----------------------+-------+--------------------+--------------------+
|  NAME|    TBL_NAME|TBL_ID|PART_ID|             PART_NAME|PART_ID|           PARAM_KEY|         PARAM_VALUE|
+------+------------+------+-------+----------------------+-------+--------------------+--------------------+
|testdb|test_analyze|  3016|  52976|partCol=20200721000000|  52976|COLUMN_STATS_ACCU...|{"BASIC_STATS":"t...|
|testdb|test_analyze|  3016|  52976|partCol=20200721000000|  52976|            numFiles|                   1|
|testdb|test_analyze|  3016|  52976|partCol=20200721000000|  52976|             numRows|                   1|
|testdb|test_analyze|  3016|  52976|partCol=20200721000000|  52976|         rawDataSize|                   3|
|testdb|test_analyze|  3016|  52976|partCol=20200721000000|  52976|           totalSize|                 383|
|testdb|test_analyze|  3016|  52976|partCol=20200721000000|  52976|transient_lastDdl...|          1595407507|
+------+------------+------+-------+----------------------+-------+--------------------+--------------------+

下篇文章將介紹如何利用Spark進行Hive庫表元數據信息統計，以及二者的區別。關注微信公眾號：大數據學習與分享，搶先看技術干貨

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於Hive進行數倉建設的資源元數據信息統計：Spark篇 impala系列: 同步Hive元數據和收集統計信息 Hive基礎（11）：元數據（二）分析Hive表和分區的統計信息(Statistics) 基於Hive的對BiliBili用戶信息進行數據分析 Hive元數據信息表詳解 hive的元數據 Hive元數據更新 Hive元數據找回 hive元數據 hive 元數據解析