parquet是列式存儲格式,官方文檔
https://parquet.apache.org/documentation/latest/
一個Parquet文件是由一個header以及一個或多個block塊組成,以一個footer結尾。header中只包含一個4個字節的數字PAR1用來識別整個Parquet文件格式。文件中所有的metadata都存在於footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的metadata信息。footer中最后兩個字段為一個以4個字節長度的footer的metadata,以及同header中包含的一樣的PAR1。
在Parquet文件中,每一個block都具有一組Row group,它們是由一組Column chunk組成的列數據。繼續往下,每一個column chunk中又包含了它具有的pages。每個page就包含了來自於相同列的值