Rocksdb的優劣及應用場景分析

本文轉載自查看原文 2018-08-29 11:23 8299

研究Rocksdb已經有七個月的時間了，這期間閱讀了它的大部分代碼，對底層存儲引擎進行了適配，同時也做了大量的測試。在正式研究之前由於對其在本地存儲引擎這個江湖地位的膜拜，把它想象的很完美，深入摸索之后才發現現實很骨感，光鮮背后都有不為人知的辛酸苦辣。同時這也給幻想追求完美技術的我打了一針清醒劑，任何東西都是兩面性的，沒有好與壞，只有適合和不適合，世界就是這么殘酷，多么痛的領悟！

Rocksdb也是一樣，也有它的優勢劣勢及特定的適用場景。今天我就從設計的角度來分析一下。

基礎架構

上圖就是Rocksdb的基礎架構。Rocksdb中引入了ColumnFamily(列族, CF)的概念，所謂列族也就是一系列kv組成的數據集。所有的讀寫操作都需要先指定列族。寫操作先寫WAL，再寫memtable，memtable達到一定閾值后切換為Immutable Memtable，只能讀不能寫。后台Flush線程負責按照時間順序將Immu Memtable刷盤，生成level0層的有序文件(SST)。后台合並線程負責將上層的SST合並生成下層的SST。Manifest負責記錄系統某個時刻SST文件的視圖，Current文件記錄當前最新的Manifest文件名。每個ColumnFamily有自己的Memtable， SST文件，所有ColumnFamily共享WAL、Current、Manifest文件。

架構分析

整個系統的設計思路很好理解，這種設計的優勢很明顯，主要有以下幾點：

1.所有的刷盤操作都采用append方式，這種方式對磁盤和SSD是相當有誘惑力的；

2.寫操作寫完WAL和Memtable就立即返回，寫效率非常高。

3.由於最終的數據是存儲在離散的SST中，SST文件的大小可以根據kv的大小自由配置，因此很適合做變長存儲。

但是這種設計也帶來了很多其他的問題：

1.為了支持批量和事務以及上電恢復操作，WAL是多個CF共享的，導致了WAL的單線程寫模式，不能充分發揮高速設備的性能優勢（這是相對介質講，相對B樹等其他結構還是有優勢）；

2.讀寫操作都需要對Memtable進行互斥訪問，在多線程並發寫及讀寫混合的場景下容易形成瓶頸。

3.由於Level0層的文件是按照時間順序刷盤的，而不是根據key的范圍做划分，所以導致各個文件之間范圍有重疊，再加上文件自上向下的合並，讀的時候有可能需要查找level0層的多個文件及其他層的文件，這也造成了很大的讀放大。尤其是當純隨機寫入后，讀幾乎是要查詢level0層的所有文件，導致了讀操作的低效。

4.針對第三點問題，Rocksdb中依據level0層文件的個數來做前台寫流控及后台合並觸發，以此來平衡讀寫的性能。這又導致了性能抖動及不能發揮高速介質性能的問題。

5.合並流程難以控制，容易造成性能抖動及寫放大。尤其是寫放大問題，在筆者的使用過程中實際測試的寫放大經常達到二十倍左右。這是不可接受的，當前我們也沒有找到合適的解決辦法，只是暫時采用大value分離存儲的方式來將寫放大盡量控制在小數據。

適用場景

1.對寫性能要求很高，同時有較大內存來緩存SST塊以提供快速讀的場景；

2.SSD等對寫放大比較敏感以及磁盤等對隨機寫比較敏感的場景；

3.需要變長kv存儲的場景；

4.小規模元數據的存取；

不適合場景

1.大value的場景，需要做kv分離；

2.大規模數據的存取

作者：從此啟航
鏈接：https://www.jianshu.com/p/73fa1d4e4273
來源：簡書
簡書著作權歸作者所有，任何形式的轉載都請聯系作者獲得授權並注明出處。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MongoDB、Hbase、Redis等NoSQL優劣勢、應用場景 JavaScript 的一些應用場景分析分析比較 opacity: 0、visibility: hidden、display: none 優劣和適用場景分析比較 opacity: 0、visibility: hidden、display: none 優劣和適用場景 ThreadLocal的應用場景我的Pandas應用場景我的Pandas應用場景（2） vuex的應用場景 CopyOnWriteArrayList應用場景什么是rpc及應用場景？