Hbase 表設計和高級屬性

本文轉載自查看原文 2018-09-18 15:02 3984 Hbase

1、compression

　　默認值是 NONE 即不使用壓縮，這個參數意思是該列族是否采用壓縮，采用什么壓縮算法

　　方法: create 'table',{NAME=>'info',COMPRESSION=>'SNAPPY'}

建議采用 SNAPPY 壓縮算法， HBase 中，在 Snappy 發布之前（ Google 2011 年對外發布 Snappy），采用的 LZO 算法，目標是達到盡可能快的壓縮和解壓速度，同時減少對 CPU 的消耗；

HBase修改壓縮格式，需要一個列族一個列族的修改 alter 'test', NAME => 'f', COMPRESSION => 'snappy'。

而且這個地方要小心，別將列族名字寫錯，或者大小寫錯誤。因為這個地方任何錯誤，都會創建一個新的列族，且壓縮格式為snappy（修改之前需要先disable，修改完之后需要enable，然后 major_compact 'test'）

2、TTL (time to live)

設置方法和versions類似

3、disable_all enable_all drop_all：支持正則表達式，並列出當前匹配的表，之后給出確認提示。

4、Hbase 預分區

　　HBase表在剛剛被創建時，只有1個分區（region），當一個region過大（達到hbase.hregion.max.filesize屬性中定義的閾值，默認10GB）時，表將會進行split，分裂為2個分區。表在進行split的時候，會耗費大量的資源，頻繁的分區對HBase的性能有巨大的影響。HBase提供了預分區功能，即用戶可以在創建表的時候對表按照一定的規則分區。分區是針對表級，不是列族級，因為region是根據rowkey來划分的。

　　目的：減少由於region split帶來的資源消耗。從而提高HBase的性能。

方案1：Hbase shell 創建，16010端口可以查看具體region