對比三種引擎的實現:
- hash存儲引擎:哈希表持久化的實現,可以快速支持增刪改查等隨機操作,且時間復雜度為o(1),但是不支持順序讀取掃描,對應的存儲系統為k-v存儲系統的實現。
- b樹存儲引擎是b樹的持久化實現,不僅支持單條記錄的增刪改查操作,還支持順序掃描,對應的存儲系統就是mysql。
- lsm樹存儲引擎和b樹存儲引擎,一樣支持,增刪改查,也支持順序掃描操作。LSM犧牲了讀性能,提高寫性能。
LSM的原理:將對數據的修改增量保存在內存中,達到指定大小限制之后批量把數據flush到磁盤中,磁盤中樹定期可以做merge操作,合並成一棵大樹,以優化讀性能。不過讀取的時候稍微麻煩一些,讀取時看這些數據在內存中,如果未能命中內存,則需要訪問較多的磁盤文件。極端的說,基於LSM樹實現的hbase寫性能比mysql高了一個數量級,讀性能卻低了一個數量級。
LSM樹原理把一顆大叔拆分成N顆小樹,它首先在內存中,它首先寫入內存中,隨着小樹越來越大,內存中的小樹會flush到磁盤中,磁盤中的樹定期可以做merge操作,合並成為一個大叔,用來優化讀性能。
以上就是hbase存儲設計的重要思想,這里說明一下:
- 因為數據是先寫到內存中,所以為了防止內存數據丟失,會先把數據寫入hlog中,也符合了數據庫中標准,先寫日志,再寫數據
- memstore上的樹達到一定大小之后,需要flush到磁盤中,然后再定期做合並,提高讀取的性能;
關於LSM Tree,對於最簡單的二層lsm而言。
lsm tree,理論上,可以是內存中樹的一部分和磁盤中一層數做merge,對於磁盤中的樹直接做update操作有可能會破壞物理block的連續性,在實際場景中,一般lsm有多層,當磁盤中的小樹合並成為一個大樹的時候,可以重新排好順序,使block連續,優化讀性能。
hbase在視線中,是把整個內存在一定閾值后,flush到disk中,形成一個hfile文件。這個file的存儲也是一個小的b+樹,因為hbase是存儲在hdfs上,hdfs不支持更新操作,所以hbase的數據也是定期flush到磁盤中,而不是和文件中的hfile做合並操作。