數據倉庫之拉鏈表設計

本文轉載自查看原文 2021-08-02 11:08 597 實習篇

一、拉鏈表的使用場景
二、拉鏈表的設計和實現
- 1、數據需求
- 2、拉鏈表設計說明
三、在Hive中實現拉鏈表
四、拉鏈表的sparkSQL整合hive實現

一、拉鏈表的使用場景

在數據倉庫的數據模型設計過程中，經常會遇到下面這種表的設計：

1)有一些表的數據量很大，比如一張用戶表，大約10億條記錄，50個字段，這種表，即使使用ORC壓縮，單張表的存儲也會超過100G，在HDFS使用雙備份或者三備份的話就更大一些。
2)表中的部分字段會被update更新操作，如用戶聯系方式，產品的描述信息，訂單的狀態等等。
3)需要查看某一個時間點或者時間段的歷史快照信息，比如，查看某一個訂單在歷史某一個時間點的狀態。
4)表中的記錄變化的比例和頻率不是很大，比如，總共有10億的用戶，每天新增和發生變化的有200萬左右，變化的比例占的很小。

那么對於這種表我該如何設計呢？下面有幾種方案可選：

方案一：每天只留最新的一份，比如我們每天用Sqoop抽取最新的一份全量數據到Hive中。

這種方案實現起來很簡單，每天drop掉前一天的數據，重新抽一份最新的。優點很明顯，節省空間，一些普通的使用也很方便，不用在選擇表的時候加一個時間分區什么的。缺點同樣明顯，沒有歷史數據，先翻翻舊賬只能通過其它方式，比如從流水表里面抽。

方案二：每天保留一份全量的切片數據。

每天一份全量的切片是一種比較穩妥的方案，而且歷史數據也在。缺點就是存儲空間占用量太大太大了，如果對這邊表每天都保留一份全量，那么每次全量中會保存很多不變的信息，對存儲是極大的浪費。當然我們也可以做一些取舍，比如只保留近一個月的數據？但是，需求是無恥的，數據的生命周期不是我們能完全左右的。

方案三：使用拉鏈表。

拉鏈表在使用上基本兼顧了我們的需求。首先它在空間上做了一個取舍，雖說不像方案一那樣占用量那么小，但是它每日的增量可能只有方案二的千分之一甚至是萬分之一。其實它能滿足方案二所能滿足的需求，既能獲取最新的數據，也能添加篩選條件也獲取歷史的數據。所以我們還是很有必要來使用拉鏈表的。

二、拉鏈表的設計和實現

1、數據需求

我們先看一下在Mysql關系型數據庫里的user表中信息變化。

在2017-01-01這一天表中的數據是：

注冊日期	    用戶編號	手機號碼
2017-01-01	001	111111
2017-01-01	002	222222
2017-01-01	003	333333
2017-01-01	004	444444

在2017-01-02這一天表中的數據是，用戶002和004資料進行了修改，005是新增用戶：

注冊日期  	用戶編號	手機號碼  	備注
2017-01-01	001	111111	
2017-01-01	002	233333	（由222222變成233333）
2017-01-01	003	333333	
2017-01-01	004	432432	（由444444變成432432）
2017-01-02	005	555555	（2017-01-02新增）

在2017-01-03這一天表中的數據是，用戶004和005資料進行了修改，006是新增用戶：

注冊日期	    用戶編號	手機號碼	    備注
2017-01-01	001	111111	
2017-01-01	002	233333	
2017-01-01	003	333333	
2017-01-01	004	654321	（由432432變成654321）
2017-01-02	005	115115	（由555555變成115115）
2017-01-03	006	666666	（2017-01-03新增）

如果在數據倉庫中設計成歷史拉鏈表保存該表，則會有下面這樣一張表，這是最新一天（即2017-01-03）的數據：

注冊日期	    用戶編號	手機號碼	t_start_date	t_end_date
2017-01-01	001	111111	2017-01-01	9999-12-31
2017-01-01	002	222222	2017-01-01	2017-01-01
2017-01-01	002	233333	2017-01-02	9999-12-31
2017-01-01	003	333333	2017-01-01	9999-12-31
2017-01-01	004	444444	2017-01-01	2017-01-01
2017-01-01	004	432432	2017-01-02	2017-01-02
2017-01-01	004	654321	2017-01-03	9999-12-31
2017-01-02	005	555555	2017-01-02	2017-01-02
2017-01-02	005	115115	2017-01-03	9999-12-31
2017-01-03	006	666666	2017-01-03	9999-12-31

2、拉鏈表設計說明

t_start_date表示該條記錄的生命周期開始時間，t_end_date表示該條記錄的生命周期結束時間。
t_end_date = '9999-12-31’表示該條記錄目前處於有效狀態。
如果查詢當前所有有效的記錄，則

select * from user where t_end_date = ‘9999-12-31’

如果查詢2017-01-02的歷史快照，判斷生效時間小於等於2017-01-02，失效時間大於等於2017-01-02，則

select * from user where t_start_date <= ‘2017-01-02’ and t_end_date >= ‘2017-01-02’

三、在Hive中實現拉鏈表

1、創建ods層和dw層表

ods層的ods.user表
以日期作為分區字段，壓縮格式為ORC

CREATE EXTERNAL TABLE ods.user (
  user_num STRING COMMENT '用戶編號',
  mobile STRING COMMENT '手機號碼',
  reg_date STRING COMMENT '注冊日期'
COMMENT '用戶資料表'
PARTITIONED BY (dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/ods/user';
)

ods層的ods.user_update表，即用戶每日更新表

CREATE EXTERNAL TABLE ods.user_update (
  user_num STRING COMMENT '用戶編號',
  mobile STRING COMMENT '手機號碼',
  reg_date STRING COMMENT '注冊日期'
COMMENT '每日用戶資料更新表'
PARTITIONED BY (dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/ods/user_update';
)

在dw層創建拉鏈表：dws.user_his
在這張表中沒有分區，但壓縮格式依舊是ORC

CREATE EXTERNAL TABLE dws.user_his (
  user_num STRING COMMENT '用戶編號',
  mobile STRING COMMENT '手機號碼',
  reg_date STRING COMMENT '用戶編號',
  t_start_date ,
  t_end_date
COMMENT '用戶資料拉鏈表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS ORC
LOCATION '/dws/user_his';
)

2、增量的sql實現

假設我們已經已經初始化了2017-01-01的日期，然后需要更新2017-01-02那一天的數據
實現思路：（對需要修改的數據進行update） UNION ALL （新增的數據）

INSERT OVERWRITE TABLE dws.user_his
SELECT * FROM
(
    SELECT A.user_num,
           A.mobile,
           A.reg_date,
           A.t_start_time,
           CASE
                WHEN A.t_end_time = '9999-12-31' AND B.user_num IS NOT NULL 
                THEN '2017-01-01'
                ELSE A.t_end_time
           END AS t_end_time
    FROM dws.user_his AS A
    LEFT JOIN ods.user_update AS B
    ON A.user_num = B.user_num
UNION ALL
    SELECT C.user_num,
           C.mobile,
           C.reg_date,
           '2017-01-02' AS t_start_time,
           '9999-12-31' AS t_end_time
    FROM ods.user_update AS C
) AS T

3、查詢性能

假如存放了5年的拉鏈數據，那么這張表勢必會比較大，當查詢的時候性能就比較低了，個人認為兩個思路來解決：

在一些查詢引擎中，我們對start_date和end_date做索引，這樣能提高不少性能。
保留部分歷史數據，比如說我們一張表里面存放全量的拉鏈表數據，然后再對外暴露一張只提供近3個月數據的拉鏈表。

四、拉鏈表的sparkSQL整合hive實現

現在介紹的這種設計方案與上面的方案大同小異，主要區別在於數據的存儲格式，以及分區的設計，增量抽取數據時增加了臨時表作為存儲。

0、拉鏈表的數據效果圖

1、拉鏈表設計具體步驟

1）第一次全量導入
- 所有的ODS層數據全量導入到拉鏈歷史記錄表中
2）增量導入（某天，例如：2021-07-21）
- 增量導入某天的數據到ODS分區
- 合並歷史數據（通過連接查詢的方式進行更新）

2、MySQL和ods層以及dw層數據說明

MySQL層數據和ods層數據保持一致
在ods層使用dt作為日期，對每日增量數據進行分區存儲，即每天都會增加一個分區

ods層數據都是用parquet格式存儲，snappy壓縮格式，對於sparkSQL的支持是最好的
在dw層使用拉鏈表技術，不分區
dw層每張表都有一張對應的臨時中間表

3、數據導入

使用sparkSQL進行數據操作全量導入（數據日期是20190909號之前的）

modifyTime，為數據的修改時間
dw_start_date，為數據的生效時間，只要當modifyTime不為空，就等於modifyTime的時間，否則就等於createTime創建時間的值
dw_end_date，為數據的失效時間，第一次全量導入時全部都初始化為"9999-12-31"，寓意永久不失效

增量導入（將20190910號的數據導入到拉鏈表中）

1）使用kettle將20190910的數據抽取到ods

2）編寫spark-sql更新歷史數據（從ods層的20190910號分區獲取數據）

dw_start_date，為數據的生效時間，此時不會做改變
dw_end_date，為數據的失效時間，如果dw_end_date依舊為"9999-12-31"，並且ods層的20190910號分區中goodsId（即兩張表中都用此商品Id時），把dw_end_date更新為昨天的日期"2019-09-09"，否則日期不變

3）編寫spark-sql獲取當日數據

dw_start_date，為數據的生效時間，只要當modifyTime不為空，就等於modifyTime的時間，否則就等於createTime創建時間的值
dw_end_date，為數據的失效時間，此時不會做改變

4）先把數據合並到臨時表中，第5步在把臨時表中的數據插入到dw層的表中

5）將歷史數據和當日數據導入到歷史拉鏈表中及查詢數據

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據倉庫之拉鏈表數據倉庫中的拉鏈表數據倉庫中的拉鏈表 03-數據倉庫之拉鏈表漫談數據倉庫之拉鏈表（原理、設計以及在Hive中的實現）數據倉庫保存歷史數據方法之拉鏈表數據倉庫—增量表，全量表，拉鏈表數據倉庫之拉鏈算法一文搞定數據倉庫之拉鏈表，流水表，全量表，增量表數據倉庫-拉鏈表, 流水表, 全量表, 增量表, 切片表