數據庫行存儲和列存儲的區別

本文轉載自查看原文 2019-09-15 11:33 1569

1、什么是行存儲和列存儲？

　　傳統的關系型數據庫，如 Oracle、DB2、MySQL、SQL SERVER 等采用行式存儲法(Row-based)，在基於行式存儲的數據庫中，數據是按照行數據為基礎邏輯存儲單元進行存儲的，一行中的數據在存儲介質中以連續存儲形式存在。

　　列存儲(Column-based)是相對於行存儲來說的，新興的 Hbase、HP Vertica、EMC Greenplum 等分布式數據庫均采用列式存儲。在基於列式存儲的數據庫中，數據是按照列為基礎邏輯存儲單元進行存儲的，一列中的數據在存儲介質中以連續存儲形式存在。

2、OLTP和OLAP

　　在數據庫中，數據處理可分為兩類：聯機事務處理OLTP（on-line transaction processing）和聯機分析處理OLAP（On-Line Analytical Processing），OLTP是傳統關系型數據庫的主要應用，用來執行一些基本的、日常的事務處理，比如數據庫增、刪、改、查等等，而OLAP則是分布式數據庫的主要應用，它對實時性要求不高，但處理的數據量大，通常應用於復雜的動態報表系統上。

　　OLTP和OLAP的主要區別：

3、行存儲和列存儲的應用場景

　　行存儲的適用場景：

　　　　（1）適合隨機的增、刪、改、查操作；

　　　　（2）需要在行中選取所有屬性的查詢操作；

　　　　（3）需要頻繁插入或更新的操作，其操作與索引和行的大小更為相關。

　　列存儲的適用場景：

　　　　（1）查詢過程中，可針對各列的運算並發執行，在內存中聚合完整記錄集，降低查詢響應時間；

　　　　（2）在數據中高效查找數據，無需維護索引（任何列都能作為索引），查詢過程中能夠盡量減少無關IO，避免全表掃描；

　　　　（3）因為各列獨立存儲，且數據類型已知，可以針對該列的數據類型、數據量大小等因素動態選擇壓縮算法，以提高物理存儲利用率；如果某一行的某一列沒有數據，在列存儲時，就可以不存儲該列的值，這將比行式存儲更節省空間。

　　在實際應用中我們會發現，行式數據庫在讀取數據時存在一個固有的缺陷，比如，所選擇查詢的目標即是只涉及少數幾個字段，但由於這些目標數據埋藏在各行數據單元中，而行單元往往又特別大，應用程序必須讀取每一條完整的行記錄，從而使得讀取效率大大較低，對此，行式數據庫給出的優化方案是加索引，在OLTP類型的應用中，通過索引機制或給表分區等手段可以簡化查詢操作步驟，並提升查詢效率。

　　但針對海量數據背景的OLAP應用（例如分布式數據庫、數據倉庫等），行存儲的數據庫就有些力不從心了，行式數據庫建立索引和物化視圖需要花費大量時間和資源，因此還是不划算的，無法從根本上解決查詢性能和維護成本的問題，也不適用於數據倉庫等應用場景，所以后來出現了基於列式存儲的數據庫。

　　對於數據倉庫和分布式數據庫來說，大部分情況下它會從各個數據源匯總數據，然后進行分析和反饋，其大多數操作是圍繞同一個字段（屬性）進行的，而當查詢某屬性的數據記錄時，列式數據庫只需返回與列屬性相關的值。在大數據量查詢場景中，列式數據庫可在內存中高效組裝各列的值，最終形成關系記錄集，因此可以顯著減少IO消耗並降低查詢響應時間，非常適合數據倉庫和分布式的應用。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 行存儲和列存儲數據庫中存儲過程和函數的區別 oracle數據庫將一列的值拼接成一行，並且各個值之間用逗號隔開數據庫（三）：存儲引擎列式數據庫與行式數據庫分析數據庫 group by 后其他列的取值 oracle數據庫列的操作關於 Ambiguous column name ‘數據庫某列’ Oracle數據庫的偽列 SQL數據庫查詢一張表新建一個排序字段並根據某列的排序存儲排序值