SparkSql中，關於Hive表與Parquet文件的Schema轉化兼容

本文轉載自查看原文 2019-09-05 15:17 427 Spark/ 大數據

從表Schema處理角度對比Hive和Parquet，兩者主要的區別：

Hive區分大小寫，Parquet不區分大小寫；
Hive允許所有的列為空，而Parquet不允許所有列為空；
基於上述兩點區別，在進行Hive metastore Parquet轉換為SpqrkSql Parquet時，需要將兩者的結構進行一致化，其一致化規則：

兩者同名字段必須具有相同的數據類型，一致化后的字段必須為Parquet的字段類型，這個規則解決了空值得問題；
一致化后得schema，只包含Hive metastore中出現的字段，忽略只出現在Parquet的字段；
只在Hive metastore出現的字段設置為nullable，並加到一致化后的schema中。
關於元數據，還要注意一點——元數據的刷新。SparkSQL緩存了Parquet元數據以達到良好的性能。當Hive metaStore Parquet表轉換為enabled時，表修改后，緩存的元數據並不能刷新，這時必須要手動刷新元數據。

//手動刷新元數據
sparkSession.catalog.refreshTable("table_name")

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 sparksql讀取parquet格式hive表的配置關於sparksql操作hive，讀取本地csv文件並以parquet的形式裝入hive中 hive中parquet和SEQUENCEFILE區別 Hive擴展功能(一)--Parquet Datax寫入parquet類型的hive表時處理timestamp類型字段的方法 Hive字段動態分區、parquet表的創建、從回收站恢復數據 Datax寫入parquet類型的hive表時處理timestamp類型字段的方法 Hive數倉建表該選用ORC還是Parquet，壓縮選LZO還是Snappy？ SparkSQL與Hive on Spark的比較 SparkSQL和hive on Spark