OLTP、OLAP列數據庫、列族數據庫的區別

本文轉載自查看原文 2020-10-15 18:10 443 NoSQL

一句話區別

OLTP：基於行存儲的關系數據庫，寫入速度極快，用於數據記錄修改場景，MySQL、Oracle
OLAP：基於列存儲，查詢速度極快，用於海量數據分析，Clickhouse、Vertica、 Amazon Redshift、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 LucidDB、 SAP HANA、 Google Dremel
列族：使用k-v + 時間戳存儲，用於大表大數據存儲，分布式存儲，帶版本時序操作等場景，HBase、Cassandra、BigTable（google）

區別

1.在數據寫入上的對比

1）行存儲的寫入是一次完成。如果這種寫入建立在操作系統的文件系統上，可以保證寫入過程的成功或者失敗，數據的完整性因此可以確定。

2）列存儲由於需要把一行記錄拆分成單列保存，寫入次數明顯比行存儲多（意味着磁頭調度次數多，而磁頭調度是需要時間的，一般在1ms~10ms)，再加上磁頭需要在盤片上移動和定位花費的時間，實際時間消耗會更大。所以，行存儲在寫入上占有很大的優勢。

3）還有數據修改,這實際也是一次寫入過程。不同的是，數據修改是對磁盤上的記錄做刪除標記。行存儲是在指定位置寫入一次，列存儲是將磁盤定位到多個列上分別寫入，這個過程仍是行存儲的列數倍。所以，數據修改也是以行存儲占優。

2.在數據讀取上的對比

1）數據讀取時，行存儲通常將一行數據完全讀出，如果只需要其中幾列數據的情況，就會存在冗余列，出於縮短處理時間的考量，消除冗余列的過程通常是在內存中進行的。

2）列存儲每次讀取的數據是集合的一段或者全部，不存在冗余性問題。

3）兩種存儲的數據分布。由於列存儲的每一列數據類型是同質的，不存在二義性問題。比如說某列數據類型為整型(int)，那么它的數據集合一定是整型數據。這種情況使數據解析變得十分容易。相比之下，行存儲則要復雜得多，因為在一行記錄中保存了多種類型的數據，數據解析需要在多種數據類型之間頻繁轉換，這個操作很消耗CPU，增加了解析的時間。所以，列存儲的解析過程更有利於分析大數據。

OLAP-OLTP 的查詢性能對比

以OLAP ClickHouse為例，可以看出在1億條數據情況下，MySQL和Hive比ClickHouse慢289倍和831倍

https://clickhouse.tech/benchmark/dbms/#[%22100000000%22,[%22ClickHouse%22,%22Vertica%22,%22Hive%22,%22MySQL%22,%22MemSQL%22,%22Greenplum%22],[%221%22,%222%22]]

ClickHouse有個在線的domo，可以試試查詢它1億行的表（hits_100m_obfuscated）復雜查詢的速度，挺驚人。

https://play.clickhouse.tech/?file=welcome

存儲方式

行式數據庫OLTP

在傳統的行式數據庫系統中，數據按如下順序存儲：

row	watchID	JavaEnable	title	GoodEvent	EventTime
#0	89354350662	1	投資者關系	1	2016-05-18 05:19:20
#1	90329509958	0	聯系我們	1	2016-05-18 08:10:20
#2	89953706054	1	任務	1	2016-05-18 07:38:00
#N	…	…	…	…	…

處於同一行中的數據總是被物理的存儲在一起。mysql innodb數據還和索引放在一起。

列式數據庫OLAP

在列式數據庫系統中，數據按如下的順序存儲：

row:	#0	#1	#2	#N
watchID:	89354350662	90329509958	89953706054	…
JavaEnable:	1	0	1	…
title:	投資者關系	聯系我們	任務	…
GoodEvent:	1	1	1	…
EventTime:	2016-05-18 05:19:20	2016-05-18 08:10:20	2016-05-18 07:38:00	…