Hive整合Hbase之后數據的存儲位置淺談
Hive整合Hbase之后數據的存儲位置淺談
1. 創建hive表
創建一張可以映射到Hbase的hive表
create table if not exists hive2hbase (
uid int,
uname string,
age int,
sex string
)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
with serdeproperties(
"hbase.columns.mapping"=":key,base_info:name,base_info:age,base_info:sex"
)
tblproperties(
"hbase.table.name"="hive2hbase1"
);
插入兩條數據
hive (default)> insert into hive2hbase values(1001, 'zhangsan', 23, 'female');
hive (default)> insert into hive2hbase values(1001, 'lisi', 24, null);
2. 進入Hbase查看數據
在Hbase中列出所有的表信息,可以看到,產生了一張命名為hive2hbase的表
使用scan查看其中的數據,可以看到有一個rowkey為1001的數據
在hbase的表hive2hbase1中插入一個rowkey為1002的兩個值
hbase(main):001:0> put 'hive2hbase1', '1002', 'base_info:age', '23'
hbase(main):002:0> put 'hive2hbase1', '1002', 'base_info:name', 'zhangsan'
3. 在Hive中查詢這個表的數據
4. 退出客戶端
此時已經完成了Hive中的表可以在Hbase中查到,說明我們已經成功了
有一個問題,此時我們剛剛輸入的數據是保存在哪里的呢,是在Hive中,還是在Hbase中
關閉hbase客戶端,並停止hbase的服務(為了讓數據flush到hdfs)
hbase的目錄
hive的目錄
通過以上的兩張圖可以明顯的看出,數據是存儲在hbase中
5. 總結
經過以上驗證,可以看出數據時存儲在了hbase中
在hive中,查看這個表的描述信息,hive中表hive2hbase的存儲目錄是/user/hive/warehouse/hive2hbase
但是我們剛剛看了這個目錄是空的,而且表的描述信息也是指向了這個目錄,那么它是怎么獲取到的hbase上的數據的呢
其實可以看到這個表的描述信息與普通表的描述信息稍有不同
從圖中可以看出parameters中,有一個hbase.columns.mapping的屬性去映射hbase的表的相關列簇信息
再看一下mysql數據庫中所維護的hive的元數據信息
在TBLS表中我們可以看到表hive2hbase的表的id是61
從TABLE_PARAMS這張表中可以看出,id為61的表有一個屬性為hbase_table_name為hive2hbase1
個人覺得可能是通過這個屬性和hbase中的表進行了關聯,但僅僅也只是個人看法,如果有別的看法,歡迎探討