HBase(六): HBase體系結構剖析（上)

本文轉載自查看原文 2016-09-10 19:37 4881 HBase

HBase隸屬於hadoop生態系統，它參考了谷歌的BigTable建模，實現的編程語言為 Java, 建立在hdfs之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。它僅能通過主鍵(row key)和主鍵的range來檢索數據，主要用來存儲非結構化和半結構化的松散數據。與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用服務器，來增加計算和存儲能力。Hbase數據庫中的表一般有這樣的特點：

大：一個表可以有上億行，上百萬列
面向列: 面向列(族)的存儲和權限控制，列(族)獨立檢索
稀疏: 對於為空(null)的列，並不占用存儲空間，因此，表可以設計的非常稀疏

目錄：

系統架構
數據模型
RegionServer
nameSpace
HBase尋址

系統架構：

HBase采用Master/Slave架構搭建集群，由HMaster節點、HRegionServer節點、ZooKeeper集群組成，而在底層，它將數據存儲於HDFS中，因而涉及到HDFS的NN、DN等，總體結構如下（注意：在hadoop(四): 本地 hbase 集群配置 Azure Blob Storage 介紹過，也可以將底層的存儲配置為 Azure Blob Storage 或 Amazon Web Services），圖A較清楚表達各組件之間的訪問及內部實現邏輯，圖B更直觀表達hbase 與 hadoop hdfs 部署結構及 hadoop NN 和 HMaster 的 SPOF 解決方案
架構圖A 架構圖B
Client的主要功能：

1. 使用HBase的RPC機制與HMaster和HRegionServer進行通信
2. 對於管理類操作，Client與HMaster進行RPC
3. 對於數據讀寫類操作，Client與HRegionServer進行RPC

Zookeeper功能：

通過選舉，保證任何時候，集群中只有一個master，Master與RegionServers 啟動時會向ZooKeeper注冊
實時監控Region server的上線和下線信息,並實時通知給Master
存貯所有Region的尋址入口和HBase的schema和table元數據
Zookeeper的引入實現HMaster主從節點的failover
詳細工作原理如下圖：
2. 在HMaster和HRegionServer連接到ZooKeeper后創建Ephemeral節點，並使用Heartbeat機制維持這個節點的存活狀態，如果某個Ephemeral節點失效，則HMaster會收到通知，並做相應的處理
3. HMaster通過監聽ZooKeeper中的Ephemeral節點(默認：/hbase/rs/*)來監控HRegionServer的加入和宕機
4. 在第一個HMaster連接到ZooKeeper時會創建Ephemeral節點(默認：/hbasae/master)來表示Active的HMaster，其后加進來的HMaster則監聽該Ephemeral節點，如果當前Active的HMaster宕機，則該節點消失，因而其他HMaster得到通知，而將自身轉換成Active的HMaster，在變為Active的HMaster之前，它會創建在/hbase/back-masters/下創建自己的Ephemeral節點

HMaster功能：

管理HRegionServer，實現其負載均衡
管理和分配HRegion，比如在HRegion split時分配新的HRegion；在HRegionServer退出時遷移其內的HRegion到其他HRegionServer上
監控集群中所有HRegionServer的狀態(通過Heartbeat和監聽ZooKeeper中的狀態)
處理schema更新請求 (創建、刪除、修改Table的定義）, 如下圖：

HRegionServer功能：

1. Region server維護Master分配給它的region，處理對這些region的IO請求
2. Region server負責切分在運行過程中變得過大的region

小結：

client訪問hbase上數據的過程並不需要master參與（尋址訪問zookeeper，數據讀寫訪問regione server），master僅僅維護者table和region的元數據信息，負載很低
HRegion所處理的數據盡量和數據所在的DataNode在一起，實現數據的本地化

數據模型：

Table: 與傳統關系型數據庫類似，HBase以表(Table)的方式組織數據，應用程序將數據存入HBase表中
Row: HBase表中的行通過 RowKey 進行唯一標識，不論是數字還是字符串，最終都會轉換成字段數據進行存儲；HBase表中的行是按RowKey字典順序排列
Column Family: HBase表由行和列共同組織，同時引入列族的概念，它將一列或多列組織在一起，HBase的列必須屬於某一個列族，在創建表時只需指定表名和至少一個列族
Cell: 行和列的交叉點稱為單元格，單元格的內容就是列的值，以二進制形式存儲，同時它是版本化的
version: 每個cell的值可保存數據的多個版本（到底支持幾個版本可在建表時指定），按時間順序倒序排列，時間戳是64位的整數，可在寫入數據時賦值，也可由RegionServer自動賦值
注意：

1. HBase沒有數據類型，任何列值都被轉換成字符串進行存儲
2. 與關系型數據庫在創建表時需明確包含的列及類型不同，HBase表的每一行可以有不同的列
3. 相同RowKey的插入操作被認為是同一行的操作。即相同RowKey的二次寫入操作，第二次可被可為是對該行某些列的更新操作
4. 列由列族和列名連接而成，分隔符是冒號，如 d:Name （d: 列族名， Name: 列名）

以一個示例來說明關系型數據表和HBase表各自的解決方案（示例：博文及作者），關系型數據庫表結構設計及數據如下圖：
（表結構設計）（示例數據）
用HBase設計表結構如下圖：
存儲示例數據如下：
小結：

HBase不支持條件查詢和Order by等查詢，讀取記錄只能按Row key（及其range）或全表掃描
在表創建時只需聲明表名和至少一個列族名，每個Column Family為一個存儲單元，在下節物理模型會詳細介紹
在上例中設計了一個HBase表blog，該表有兩個列族：article和author，但在實際應用中強烈建議使用單列族
Column不用創建表時定義即可以動態新增，同一Column Family的Columns會群聚在一個存儲單元上，並依Column key排序，因此設計時應將具有相同I/O特性的Column設計在一個Column Family上以提高性能。注意：這個列是可以增加和刪除的，這和我們的傳統數據庫很大的區別。所以他適合非結構化數據
HBase通過row和column確定一份數據，這份數據的值可能有多個版本，不同版本的值按照時間倒序排序，即最新的數據排在最前面，查詢時默認返回最新版本。如上例中row key=1的author:nickname值有兩個版本，分別為1317180070811對應的“一葉渡江”和1317180718830對應的“yedu”（對應到實際業務可以理解為在某時刻修改了nickname為yedu，但舊值仍然存在）。Timestamp默認為系統當前時間（精確到毫秒），也可以在寫入數據時指定該值
每個單元格值通過4個鍵唯一索引，tableName+RowKey+ColumnKey+Timestamp=>value，例如上例中{tableName=’blog’,RowKey=’1’,ColumnName=’author:nickname’,Timestamp=’ 1317180718830’}索引到的唯一值是“yedu”
存儲類型

- TableName 是字符串
- RowKey 和 ColumnName 是二進制值（Java 類型 byte[]）
- Timestamp 是一個 64 位整數（Java 類型 long）
- value 是一個字節數組（Java類型 byte[]）

RegionServer:

HRegionServer一般和DN在同一台機器上運行，實現數據的本地性，如圖B。HRegionServer包含多個HRegion，由WAL(HLog)、BlockCache、MemStore、HFile組成，如圖A，其中圖A是0.94-的架構圖，圖B是0.96+的新架構圖
圖A 圖B
WAL(Write Ahead Log)：它是HDFS上的一個文件，所有寫操作都會先保證將數據寫入這個Log文件后，才會真正更新MemStore，最后寫入HFile中
采用這種模式，可以保證HRegionServer宕機后，依然可以從該Log文件中讀取數據，Replay所有的操作，來保證數據的一致性
一個HRegionServer只有一個WAL實例，即一個HRegionServer的所有WAL寫都是串行，這當然會引起性能問題，在HBase 1.0之后，通過HBASE-5699實現了多個WAL並行寫(MultiWAL)，該實現采用HDFS的多個管道寫，以單個HRegion為單位
Log文件會定期Roll出新的文件而刪除舊的文件(那些已持久化到HFile中的Log可以刪除)。WAL文件存儲在/hbase/WALs/${HRegionServer_Name}的目錄中
BlockCache（圖B）：是一個讀緩存，將數據預讀取到內存中，以提升讀的性能
HBase中提供兩種BlockCache的實現：默認on-heap LruBlockCache和BucketCache(通常是off-heap)。通常BucketCache的性能要差於LruBlockCache，然而由於GC的影響，LruBlockCache的延遲會變的不穩定，而BucketCache由於是自己管理BlockCache，而不需要GC，因而它的延遲通常比較穩定，這也是有些時候需要選用BucketCache的原因
HRegion:是一個Table中的一個Region在一個HRegionServer中的表達,是Hbase中分布式存儲和負載均衡的最小單元
一個Table擁有一個或多個Region，分布在一台或多台HRegionServer上
一台HRegionServer包含多個HRegion，可以屬於不同的Table
見圖A，HRegion由多個Store(HStore)構成，每個HStore對應了一個Table在這個HRegion中的一個Column Family，即每個Column Family就是一個集中的存儲單元
HStore是HBase中存儲的核心，它實現了讀寫HDFS功能，一個HStore由一個MemStore 和0個或多個StoreFile組成
MemStore：是一個寫緩存(In Memory Sorted Buffer)，所有數據的寫在完成WAL日志寫后，會寫入MemStore中，由MemStore根據一定的算法將數據Flush到底層HDFS文件中(HFile)，通常每個HRegion中的每個 Column Family有一個自己的MemStore
HFile(StoreFile)： 用於存儲HBase的數據(Cell/KeyValue)。在HFile中的數據是按RowKey、Column Family、Column排序，對相同的Cell(即這三個值都一樣)，則按timestamp倒序排列
小結：

1. Table中的所有行都按照row key的字典序排列，Table 在行的方向上分割為多個Hregion，如下圖A
2. region按大小分割的，每個表一開始只有一個region，隨着數據不斷插入表，region不斷增大，當增大到一個閥值的時候，Hregion就會等分會兩個新的Hregion，如下圖B
4. 圖A 圖B
5. HRegion是Hbase中分布式存儲和負載均衡的最小單元。最小單元就表示不同的Hregion可以分布在不同的HRegion server上。但一個Hregion是不會拆分到多個server上的，如下圖
7. HRegion雖然是分布式存儲的最小單元，但並不是存儲的最小單元。事實上，HRegion由一個或者多個Store組成，每個store保存一個columns family，每個Strore又由一個memStore和0至多個StoreFile組成，如下圖，說明：StoreFile以HFile格式保存在HDFS上

nameSpace：

在HBase中，namespace命名空間指對一組表的邏輯分組，類似RDBMS中的database，方便對表在業務上划分。
Apache HBase從0.98.0, 0.95.2兩個版本開始支持namespace級別的授權操作，HBase全局管理員可以創建、修改和回收namespace的授權
HBase系統默認定義了兩個缺省的namespace，見如下圖的目錄結構：

1. hbase：系統內建表，包括namespace和meta表
2. default：用戶建表時未指定namespace的表都創建在此

HBase尋址：

本節主要討論的問題：Client訪問用戶數據時如何找到某個row key所在的region？
0.94- 版本 Client訪問用戶數據之前需要首先訪問zookeeper，然后訪問-ROOT-表，接着訪問.META.表，最后才能找到用戶數據的位置去訪問，中間需要多次網絡操作，如下圖：
0.96+ 刪除了root 表，改為zookeeper里面的文件，如下圖 A，以讀為例，尋址示意圖如B
圖A 圖B
思考：如果root表信息存儲在zookeeper文件，集群重建后，文件是如何還原？

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 HBase(七): HBase體系結構剖析（下) HBase體系結構(轉) SQLite剖析之體系結構 Linux0.11內核剖析–內核體系結構 Oracle體系結構概述與SQL解析剖析三、oracle 體系結構 Hadoop體系結構 SqlServer體系結構 .Net體系結構 MySQL體系結構