行存儲和列存儲

本文轉載自查看原文 2017-01-08 21:42 16502 hbase

本文地址：http://www.cnblogs.com/qiaoyihang/p/6262806.html　　

傳統的行式數據庫將一個個完整的數據行存儲在數據頁中。這種方式在大數據量查詢的時候會出現以下問題

1、在沒有索引的情況下，會把一行全部查出來，查詢會使用大量IO

2、雖然建立索引和物化視圖可以可以快速定位列，但是也需要花費大量時間

但是如果處理查詢時需要用到大部分的數據列，這種方式在磁盤IO上是比較高效的。

一般來說，OLTP（Online Transaction Processing，聯機事務處理）應用適合采用這種方式。

　　一個OLAP類型的查詢可能需要訪問幾百萬甚至幾十億個數據行，且該查詢往往只關心少數幾個數據列。例如，查詢今年銷量最高的前20個商品，這個查詢只關心三個數據列：時間（date）、商品（item）以及銷售量（sales amount）。商品的其他數據列，例如商品URL、商品描述、商品所屬店鋪，等等，對這個查詢都是沒有意義的。

　　如下圖，列式數據庫是將同一個數據列的各個值存放在一起。插入某個數據行時，該行的各個數據列的值也會存放到不同的地方。上例中列式數據庫只需要讀取存儲着“時間、商品、銷量”的數據列，而行式數據庫需要讀取所有的數據列。因此，列式數據庫大大地提高了OLAP大數據量查詢的效率。當然，列式數據庫不是萬能的，每次讀取某個數據行時，需要分別從不同的地方讀取各個數據列的值，然后合並在一起形成數據行。因此，如果每次查詢涉及的數據量較小或者大部分查詢都需要整行的數據，列式數據庫並不適用。

　　很多列式數據庫還支持列組（column group，Bigtable系統中稱為locality group），即將多個經常一起訪問的數據列的各個值存放在一起。如果讀取的數據列屬於相同的列組，列式數據庫可以從相同的地方一次性讀取多個數據列的值，避免了多個數據列的合並。列組是一種行列混合存儲模式，這種模式能夠同時滿足OLTP和OLAP的查詢需求。

　　由於同一個數據列的數據重復度很高，因此，列式數據庫壓縮時有很大的優勢。例如，Google Bigtable列式數據庫對網頁庫壓縮可以達到15倍以上的壓縮率。另外，可以針對列式存儲做專門的索引優化。比如，性別列只有兩個值，“男”和“女”，可以對這一列建立位圖索引：

　　如下圖所示，“男”對應的位圖為100101，表示第1、4、6行值為“男”；“女”對應的位圖為011010，表示第2、3、5行值為“女”。如果需要查找男性或者女性的個數，只需要統計相應的位圖中1出現的次數即可。另外，建立位圖索引后0和1的重復度高，可以采用專門的編碼方式對其進行壓縮。