幾張圖看懂列式存儲(轉)


add by zhj: 終於明白了什么是列式存儲,什么是行式存儲。這跟數據在存儲介質中的存儲結構有關,

列式存儲是指,一列中的數據在存儲介質中是連續存儲的;行式存儲是指一行中的數據在存儲介質

中是連續存儲的。簡單的說,你可以把列式數據庫認為是每一列都是一個表,這個表只有一列,如

果只在該列進行條件查詢,速度就很快。

那這兩種不同的存儲方式對數據的CRUD有什么不同的影響呢?看了一些文章,

一般說的是下面兩點

1。行數據庫適用於讀取出少行,多列的情況;列數據庫相反,適用於讀取出少數列,多數行的情況。

2。列數據庫可以節省空間,如果某一行的某一列沒有數據,那在列存儲時,就可以不存儲該列的值。

這比行數據庫節省空間

    我個人感覺列數據庫只適合對單個列進行條件查詢,不適合對幾個列的字段進行多條件組合查詢,因

為每一列上的查詢都是獨立完成的,相當於每一列都是一個單獨的數據庫表,需要每一列的查詢結果進行

join連接,join的條件是row_key相等,但每列的查詢結果集可能很大。當我們對一個列的數據進行切片,

存儲在不同的機器上時,一般是按主鍵進行排序,然后分片。額,有點亂。以HBase為例來說吧,它每一

列的數、據其實都是按row-key排序的,這樣的好處是,一定范圍內row-key可以放在一台機器上,當我們

用row-key進行查詢時,可以很快就查到數據。HBase沒有二級索引,如果我想用另一列的字段做為查詢條

件,那會全表掃描了。這樣看來,貌似列數據庫只有上面第2點的優勢了

 

 

原文:http://blog.csdn.net/dc_726/article/details/41143175

最近看到一篇很好資料,里面三言兩語配上幾個圖就把列式存儲(Column-based Storage)講明白了,牛啊!最喜歡的就是這種淺顯易懂就把背景知識講得明明白白,而不是長篇大論的講概念。

1 為什么要按列存儲

列式存儲(Columnar or column-based)是相對於傳統關系型數據庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好,直接抄原文了):

Ø  Row-based storage stores atable in a sequence of rows.

Ø  Column-based storage storesa table in a sequence of columns.

 

下面來看一個例子:

 

從上圖可以很清楚地看到,行式存儲下一張表的數據都是放在一起的,但列式存儲下都被分開保存了。所以它們就有了如下這些優缺點:

                             

行式存儲

列式存儲

優點

Ø  數據被保存在一起

Ø  INSERT/UPDATE容易

Ø  查詢時只有涉及到的列會被讀取

Ø  投影(projection)很高效

Ø  任何列都能作為索引

缺點

Ø  選擇(Selection)時即使只涉及某幾列,所有數據也都會被讀取

Ø  選擇完成時,被選擇的列要重新組裝

Ø  INSERT/UPDATE比較麻煩

注:關系型數據庫理論回顧 - 選擇(Selection)和投影(Projection)

 

2補充:數據壓縮

剛才其實跳過了資料里提到的另一種技術:通過字典表壓縮數據。為了方面后面的講解,這部分也順帶提一下了。

下面中才是那張表本來的樣子。經過字典表進行數據壓縮后,表中的字符串才都變成數字了。正因為每個字符串在字典表里只出現一次了,所以達到了壓縮的目的(有點像規范化和非規范化Normalize和Denomalize)

 

 

3查詢執行性能

下面就是最牛的圖了,通過一條查詢的執行過程說明列式存儲(以及數據壓縮)的優點:

 

 

關鍵步驟如下:

1.     去字典表里找到字符串對應數字(只進行一次字符串比較)。

2.     用數字去列表里匹配,匹配上的位置設為1。

3.     把不同列的匹配結果進行位運算得到符合所有條件的記錄下標。

4.     使用這個下標組裝出最終的結果集。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM