列式存儲格式與壓縮算法

列式存儲

在OLAP系統中使用列式存儲可以在存儲和查詢兩方面取得優勢：

常見的列式存儲格式有：Parquet、ORC(optimized RCFile)、RCFile(Row Columnar)

文件結構：

ORC和Parquet在存儲時都是先分行組然后分列存儲的

支持引擎：

Parquet：Apache Hive 、Cloudera Impala、Apache Spark 等

ORC：Hive、MapReduce、Spark 等

一句話總結：Parquet 支持復雜的數據嵌套式結構，但不支持數據刪改及 ACID

壓縮格式	壓縮比	壓縮速率	解壓速率	多文件	splitable	native	工具	hadoop自帶
gzip	13.4%	21 MB/s	118 MB/s	否	否	是	gzip	是
bzip2	13.2%	2.4MB/s	9.5MB/s	是	是	否	bzip2	是
lzo	20.5%	135 MB/s	410 MB/s	否	是	是	lzop	否
snappy	22.2%	172 MB/s	409 MB/s	否	否	是	無	否

*lzo 文件如果要切片需要建立索引

不同文件格式支持的壓縮算法

當文件較大且不持支切片時，該文件將只能由一個 map task 讀取並處理，導致處理時間過長，所以當有大文件需要讀取處理的時候更多選擇的是 Lzo 和 Parquet 的組合。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 JPEG格式壓縮算法壓縮算法 LZW壓縮算法 Parquet 列式存儲格式 Parquet列式存儲格式 RLE壓縮算法總結霍夫曼編碼壓縮算法 (算法)壓縮算法(哈夫曼樹) GC算法-標記壓縮算法 gzip是一種數據格式,deflate是一種壓縮算法