Parquet格式解析


parquet是列式存儲格式,官方文檔

https://parquet.apache.org/documentation/latest/

 一個Parquet文件是由一個header以及一個或多個block塊組成,以一個footer結尾。header中只包含一個4個字節的數字PAR1用來識別整個Parquet文件格式。文件中所有的metadata都存在於footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的metadata信息。footer中最后兩個字段為一個以4個字節長度的footer的metadata,以及同header中包含的一樣的PAR1。

在Parquet文件中,每一個block都具有一組Row group,它們是由一組Column chunk組成的列數據。繼續往下,每一個column chunk中又包含了它具有的pages。每個page就包含了來自於相同列的值


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM