https://www.pianshen.com/article/34572045595/
ORC、Parquet都是列式存儲
Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存儲格式
每個Orc文件由1個或多個stripe組成,每個stripe一般為HDFS的塊大小,每一個stripe包含多條記錄,這些記錄按照列進行獨立存儲,對應到Parquet中的row group的概念。每個Stripe里有三部分組成,分別是Index Data,Row Data,Stripe Footer:
Parquet文件是以二進制方式存儲的,所以是不可以直接讀取的,文件中包括該文件的數據和元數據,因此Parquet格式文件是自解析的。
行組(Row Group)、列塊(Column Chunk)、頁(Page):
Parquet適用Spark impala
Orc適用於MapReduce