hbase實踐之HFile結構

本文轉載自查看原文 2018-09-27 21:39 907 hbase

本文目錄如下所示：

HFile在HBase架構中的位置

如上圖所示，HFile是HBase最底層的文件組織形式。

Table
    --N Region
        --N Store
            --N StoreFile
                --HFile(StoreFile與HFile是一對一)

什么是HFile

HFile是HBase存儲數據的文件組織形式，參考BigTable的SSTable和Hadoop的TFile實現。

從HBase開始到現在，HFile經歷了三個版本，其中V2在0.92引入，V3在0.98引入。HFileV1版本的在實際使用過程中發現它占用內存多，HFile V2版本針對此進行了優化，HFileV3版本基本和V2版本相同，只是在cell層面添加了Tag數組的支持。鑒於此，本文主要針對V2版本進行分析。

HFile邏輯結構

最初的HFile格式(HFile V1)

Data Block默認大小為64k。

Data Index部分存儲了每一個Data Block的索引信息{Offset，Size，FirstKey}，這里只有1級索引，當HFile較大，索引信息過多，導致一個RegionServer啟動時可能需要加載數GB的Data Block Index數據。這在一個大數據量的集群中，幾乎無法忍受。另外，第一次讀取時需要加載所有的Bloom Filter數據到內存中。一個HFile中的Bloom Filter的數據大小可達百MB級別。

Data Block Index究竟有多大？
一個Data Block在Data Block Index中的索引信息包含{Offset, Size, FirstKey}，BlockOffset使用Long型數字表示，Size使用Int表示即可。假設用戶數據RowKey的長度為50bytes，那么，一個64KB的Data Block在Data Block Index中的一條索引數據大小約為62字節。

假設一個RegionServer中有500個Region，每一個Region的數量為10GB（假設這是Data Blocks的總大小），在這個RegionServer上，約有81920000個Data Blocks，此時，Data Block Index所占用的大小為81920000*62bytes，約為4.7GB

HFile V2設計

作為V1的改進版，V2解決了此前存在的問題。

文件主要分為四個部分：Scanned block section，Non-scanned block section，Opening-time data section和Trailer。

Scanned block section：顧名思義，表示順序掃描HFile時所有的數據塊將會被讀取，包括Leaf Index Block和Bloom Block。

Non-scanned block section：表示在HFile順序掃描的時候數據不會被讀取，主要包括Meta Block和Intermediate Level Data Index Blocks兩部分。

Load-on-open-section：這部分數據在HBase的region server啟動時，需要加載到內存中。包括FileInfo、Bloom filter block、data block index和meta block index。

Trailer：這部分主要記錄了HFile的基本信息、各個部分的偏移值和尋址信息。

HFile邏輯結構的優點

分層索引
Data Block的索引，在HFile V2中最多可支持三層索引：

Root Data Index
- Intermediate Index Block
  - Leaf Index Block
    - Data Block

交叉存放

在”Scanned Block Section“區域，Data Block(存放用戶數據KeyValue)、存放Data Block索引的Leaf Index Block(存放Data Block的索引)與Bloom Block(Bloom Filter數據)交叉存在。

按需讀取
無論是Data Block的索引數據，還是Bloom Filter數據，都被拆成了多個Block，基於這樣的設計，無論是索引數據，還是Bloom Filter，都可以按需讀取，避免在Region Open階段或讀取階段一次讀入大量的數據，有效降低時延。

將索引分級后，RegionServer不需要將所有索引都加載，加載一級索引即可。

HFile物理結構

所有block塊都擁有相同的數據結構，如圖左側所示，HBase將block塊抽象為一個統一的HFileBlock。HFileBlock支持兩種類型，一種類型不支持checksum，一種不支持。
不支持checksum的HFileBlock內部結構：

HFileBlock主要包括兩部分：BlockHeader和BlockData。其中BlockHeader主要存儲block元數據，BlockData用來存儲具體數據。

block元數據中最核心的字段是BlockType字段，用來標示該block塊的類型，HBase中定義了8種BlockType，每種BlockType對應的block都存儲不同的數據內容，有的存儲用戶數據，有的存儲索引數據，有的存儲meta元數據。對於任意一種類型的HFileBlock，都擁有相同結構的BlockHeader，但是BlockData結構卻不相同。