Hive中文件存儲格式ORC與Parquet對比


https://www.pianshen.com/article/34572045595/

ORC、Parquet都是列式存儲

Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存儲格式

每個Orc文件由1個或多個stripe組成,每個stripe一般為HDFS的塊大小,每一個stripe包含多條記錄,這些記錄按照列進行獨立存儲,對應到Parquet中的row group的概念。每個Stripe里有三部分組成,分別是Index Data,Row Data,Stripe Footer:

 

Parquet文件是以二進制方式存儲的,所以是不可以直接讀取的,文件中包括該文件的數據和元數據,因此Parquet格式文件是自解析的。

行組(Row Group)、列塊(Column Chunk)、頁(Page):

 

Parquet適用Spark impala

Orc適用於MapReduce

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM