一、概述
SparkSQL 的元數據的狀態有兩種:
1、in_memory,用完了元數據也就丟了
2、hive , 通過hive去保存的,也就是說,hive的元數據存在哪兒,它的元數據也就存在哪兒。
換句話說,SparkSQL的數據倉庫在建立在Hive之上實現的。我們要用SparkSQL去構建數據倉庫的時候,必須依賴於Hive。
二、Spark-SQL腳本
如果用戶直接運行bin/spark-sql命令。會導致我們的元數據有兩種狀態:
1、in-memory狀態:
如果SPARK-HOME/conf目錄下沒有放置hive-site.xml文件,元數據的狀態就是in-memory
2、hive狀態:
如果我們在SPARK-HOME/conf目錄下放置了,hive-site.xml文件,那么默認情況下
spark-sql的元數據的狀態就是hive.