數據庫行存儲和列存儲的區別


1、什么是行存儲和列存儲?

  傳統的關系型數據庫,如 Oracle、DB2、MySQL、SQL SERVER 等采用行式存儲法(Row-based),在基於行式存儲的數據庫中, 數據是按照行數據為基礎邏輯存儲單元進行存儲的, 一行中的數據在存儲介質中以連續存儲形式存在。

  列存儲(Column-based)是相對於行存儲來說的,新興的 Hbase、HP Vertica、EMC Greenplum 等分布式數據庫均采用列式存儲。在基於列式存儲的數據庫中, 數據是按照列為基礎邏輯存儲單元進行存儲的,一列中的數據在存儲介質中以連續存儲形式存在。

2、OLTP和OLAP

  在數據庫中,數據處理可分為兩類:聯機事務處理OLTP(on-line transaction processing)和聯機分析處理OLAP(On-Line Analytical Processing),OLTP是傳統關系型數據庫的主要應用,用來執行一些基本的、日常的事務處理,比如數據庫增、刪、改、查等等,而OLAP則是分布式數據庫的主要應用,它對實時性要求不高,但處理的數據量大,通常應用於復雜的動態報表系統上。

  OLTP和OLAP的主要區別:

 

3、行存儲和列存儲的應用場景

  行存儲的適用場景:

    (1)適合隨機的增、刪、改、查操作;

    (2)需要在行中選取所有屬性的查詢操作;

    (3)需要頻繁插入或更新的操作,其操作與索引和行的大小更為相關。

  列存儲的適用場景:

    (1)查詢過程中,可針對各列的運算並發執行,在內存中聚合完整記錄集,降低查詢響應時間;

    (2)在數據中高效查找數據,無需維護索引(任何列都能作為索引),查詢過程中能夠盡量減少無關IO,避免全表掃描;

    (3)因為各列獨立存儲,且數據類型已知,可以針對該列的數據類型、數據量大小等因素動態選擇壓縮算法,以提高物理存儲利用率;如果某一行的某一列沒有數據,在列存儲時,就可以不存儲該列的值,這將比行式存儲更節省空間。

  在實際應用中我們會發現,行式數據庫在讀取數據時存在一個固有的缺陷,比如,所選擇查詢的目標即是只涉及少數幾個字段,但由於這些目標數據埋藏在各行數據單元中,而行單元往往又特別大,應用程序必須讀取每一條完整的行記錄,從而使得讀取效率大大較低,對此,行式數據庫給出的優化方案是加索引,在OLTP類型的應用中,通過索引機制或給表分區等手段可以簡化查詢操作步驟,並提升查詢效率。

  但針對海量數據背景的OLAP應用(例如分布式數據庫、數據倉庫等),行存儲的數據庫就有些力不從心了,行式數據庫建立索引和物化視圖需要花費大量時間和資源,因此還是不划算的,無法從根本上解決查詢性能和維護成本的問題,也不適用於數據倉庫等應用場景,所以后來出現了基於列式存儲的數據庫。

  對於數據倉庫和分布式數據庫來說,大部分情況下它會從各個數據源匯總數據,然后進行分析和反饋,其大多數操作是圍繞同一個字段(屬性)進行的,而當查詢某屬性的數據記錄時,列式數據庫只需返回與列屬性相關的值。在大數據量查詢場景中,列式數據庫可在內存中高效組裝各列的值,最終形成關系記錄集,因此可以顯著減少IO消耗並降低查詢響應時間,非常適合數據倉庫和分布式的應用。

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM