LSM樹理解

本文轉載自查看原文 2019-06-17 19:45 11802

對比三種引擎的實現：　　

hash存儲引擎：哈希表持久化的實現，可以快速支持增刪改查等隨機操作，且時間復雜度為o(1)，但是不支持順序讀取掃描，對應的存儲系統為k-v存儲系統的實現。
b樹存儲引擎是b樹的持久化實現，不僅支持單條記錄的增刪改查操作，還支持順序掃描，對應的存儲系統就是mysql。
lsm樹存儲引擎和b樹存儲引擎，一樣支持，增刪改查，也支持順序掃描操作。LSM犧牲了讀性能，提高寫性能。

LSM的原理：將對數據的修改增量保存在內存中，達到指定大小限制之后批量把數據flush到磁盤中，磁盤中樹定期可以做merge操作，合並成一棵大樹，以優化讀性能。不過讀取的時候稍微麻煩一些，讀取時看這些數據在內存中，如果未能命中內存，則需要訪問較多的磁盤文件。極端的說，基於LSM樹實現的hbase寫性能比mysql高了一個數量級，讀性能卻低了一個數量級。

LSM樹原理把一顆大叔拆分成N顆小樹，它首先在內存中，它首先寫入內存中，隨着小樹越來越大，內存中的小樹會flush到磁盤中，磁盤中的樹定期可以做merge操作，合並成為一個大叔，用來優化讀性能。

以上就是hbase存儲設計的重要思想，這里說明一下：

因為數據是先寫到內存中，所以為了防止內存數據丟失，會先把數據寫入hlog中，也符合了數據庫中標准，先寫日志，再寫數據
memstore上的樹達到一定大小之后，需要flush到磁盤中，然后再定期做合並，提高讀取的性能；

關於LSM Tree，對於最簡單的二層lsm而言。

lsm tree，理論上，可以是內存中樹的一部分和磁盤中一層數做merge，對於磁盤中的樹直接做update操作有可能會破壞物理block的連續性，在實際場景中，一般lsm有多層，當磁盤中的小樹合並成為一個大樹的時候，可以重新排好順序，使block連續，優化讀性能。

hbase在視線中，是把整個內存在一定閾值后，flush到disk中，形成一個hfile文件。這個file的存儲也是一個小的b+樹，因為hbase是存儲在hdfs上，hdfs不支持更新操作，所以hbase的數據也是定期flush到磁盤中，而不是和文件中的hfile做合並操作。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 LSM 樹詳解 LSM樹簡介 HBase總結 LSM理解 LSM相關知識及理解數據結構-LSM樹 LSM樹和Elasticsearch的索引寫入機制日志結構合並樹LSM代碼解讀 HBase LSM樹存儲引擎詳解二叉樹、B樹、B+樹、B*樹、LSM樹平衡二叉樹、B樹、B+樹、B*樹、LSM樹簡介